V2A Voice to Audio est la nouvelle IA lancée par Google DeepMind

Laisser une évaluation

4 433
personnes ont consulté cet article

2 minutes

Rédigé par Léo Verstraet - il y a 1 an et modifié le 09/07/2024 à 09:37

Ce que vous allez découvrir

Qu’est-ce que c’est ?
Comprendre la génération
Pas encore au point dans certain cas
Conclusion

V2A Voice to Audio est la nouvelle IA lancée par Google DeepMind

Au cours de la conférence Google I/O 2024, Google a dévoilé VEO, un modèle text-to-video, bien que les vidéos produites par ce modèle manquent de son. DeepMind s’efforce de remédier à cette lacune et a récemment présenté les progrès de sa technologie vidéo-audio (V2A), qui intègre des pixels vidéo et des instructions textuelles pour créer des bandes sonores synchronisées.

Qu’est-ce que c’est ?

Le modèle V2A peut être utilisé avec des modèles de génération vidéo comme VEO pour créer des effets sonores, de la musique et des dialogues adaptés à chaque scène. Il peut également ajouter des bandes sonores à diverses séquences, telles que des films muets, des documents d’archives, et plus encore, élargissant ainsi les possibilités créatives.

V2A permet aux utilisateurs de contrôler précisément la sortie audio. Les créateurs peuvent orienter la génération sonore vers des sons spécifiques ou éviter ceux qui ne conviennent pas. Cette flexibilité facilite l’expérimentation rapide de différentes options audio, permettant de choisir la meilleure correspondance pour chaque vidéo.

Voici quelques exemples de vidéos dont le son a été ajouté par V2A avec les prompt pour chacun :

Prompt : Cinematic, thriller, horror film, music, tension, ambience, footsteps on concrete

Prompt : Cute baby dinosaur chirps, jungle ambience, egg cracking

Prompt : A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi

Comprendre la génération

Le système V2A commence par encoder la vidéo d’entrée dans une représentation compressée. Ensuite, un modèle de diffusion affine progressivement l’audio à partir de bruit aléatoire, guidé par les pixels vidéo et les instructions textuelles. Finalement, l’audio généré est décodé en une forme d’onde et synchronisé avec la vidéo.

Pour améliorer la qualité et la pertinence des sons produits, V2A utilise des annotations et des transcriptions détaillées lors de son entraînement. Cette méthode permet au système d’apprendre à associer des événements audio spécifiques à diverses scènes visuelles, assurant ainsi une synchronisation audio-vidéo convaincante.

Pas encore au point dans certain cas

En plus de la musique et des bruits de fond, la nouvelle IA de Google peut même générer des voix, comme illustré dans la vidéo ci-dessous. Cependant, Google reconnaît que son modèle rencontre encore des difficultés à synchroniser les dialogues avec les vidéos. « V2A tente de générer de la parole à partir des transcriptions d’entrée et de la synchroniser avec les mouvements des lèvres des personnages. Cependant, le modèle de génération de vidéos associé ne peut pas être conditionné par les transcriptions. Cela crée un décalage, entraînant souvent une synchronisation labiale imparfaite, car le modèle vidéo ne produit pas de mouvements de bouche correspondant à la transcription, » explique l’entreprise.

Conclusion

Google estime que V2A se distingue des autres modèles de génération d’audio existant : l’IA est capable de comprendre “les pixels bruts” et les prompts sous forme de texte ne sont qu’une option. Sinon, pour la façon dont cette IA a été développée, Google explique qu’il a entraîné le modèle avec des vidéos, de l’audio, et des annotations, afin que V2A comprenne quels sons correspondent à un événement visuel donné.

Concernant la disponibilité de cette technologie, la firme explique qu’elle va d’abord réaliser des évaluations et des tests, avant d’envisager de rendre V2A accessible au public.

C’est la fin de cet article ! Si vous souhaitez avoir plus d’informations sur les outils Google et sur l’IA, restez connectés pour en savoir plus !

Si vous souhaitez développer un projet avec notre équipe de développeurs de choc, contactez-nous via ce formulaire.

Numericoach dispose d’une offre packagée pour les licences Google Workspace, unique en France.

À bientôt !

Articles similaires

Articles connexes
Plus de l'auteur

News

L’écriture d’un article sur Bard VS Chat GPT

Dans un univers en constante évolution, deux puissants outils ont pris d'assaut la scène : Bard et Chat GPT. Si vous êtes un rédacteur SEO averti et un passionné de ...

3 min

Jennyfer Delage 2 ans

Gemma 3 : L’IA ouverte qui change la donne, sur votre appareil

Un an. C’est le temps qu’il aura fallu pour que Gemma, la famille de modèles ouverts de Google, ne cesse de grandir et d’inspirer. Un anniversaire célébré en grande pompe ...

8 min

Thierry Vanoffe 6 mois

News

NotebookLM est désormais disponible en tant que service supplémentaire

L'année dernière, Google a lancé une application d'accès anticipé appelée NotebookLM, un produit expérimental utilisant certains des modèles les plus avancés de Google, comme Gemini 1.5 Pro, qui vous aide à obtenir ...

1 min

Thierry Vanoffe 11 mois

News

Android Automotive

Tesla n'est pas le seul à offrir une expérience comparable à celle d'un smartphone. Un nombre croissant de constructeurs automobiles adoptent désormais Android Automotive OS, le système d'exploitation avancé et ...

3 min

Léo Verstraet 1 an

Le planning de rendez-vous Google Agenda

Les plannings dédiés aux rencontres offrent une approche distinctive par rapport aux simples créneaux horaires. En exploitant ces plannings, une panoplie de fonctionnalités s'ouvre à vous, allant de la création ...

4 min

Léo Verstraet 2 ans

News

Google lance Gemma 2

L’intelligence artificielle (IA) a le potentiel de résoudre certains problèmes urgents, mais cela nécessite que chacun dispose des outils adéquats pour s’en servir. Ainsi, plus tôt cette année, une famille ...

2 min

Léo Verstraet 1 an

Rédacteur

Léo Verstraet

Développeur Google Apps Script

S’abonner

0 Commentaires

Le plus ancien

Le plus récent Le plus populaire

Commentaires en ligne

Afficher tous les commentaires