Nouvel outil de Google DeepMind : les films générés par l'IA seront là plus tôt que vous ne le pensez

Une ombre marchant dans un tunnel, un cow-boy à cheval au coucher du soleil et des mains jouant de la guitare électrique.

(Crédit photo: Google DeepMind)

Les générateurs de vidéos par IA comme Sora d'OpenAI, Dream Machine de Luma AI et Runway Gen-3 Alpha font sensation ces derniers temps, mais un nouvel outil de Google DeepMind pourrait résoudre leur point faible commun : l'absence d'audio associé.

Un nouvel article de Google DeepMind a dévoilé un nouvel outil de vidéo vers audio (ou 'V2A') qui utilise une combinaison de pixels et de commandes textuelles pour générer automatiquement des bandes sonores et des ambiances sonores pour les vidéos générées par IA. En bref, c'est un pas de géant vers la création de scènes de films entièrement automatisées.

Comme le montrent les vidéos ci-dessous, cette technologie V2A peut se combiner avec des générateurs de vidéos par IA (y compris Veo de Google) pour créer une musique d'ambiance, des effets sonores synchronisés, voire des dialogues que Google DeepMind affirme "correspondre aux personnages et au ton d'une vidéo".

V2A Horror - YouTube

Watch On

Les créateurs ne sont pas limités à une seule option audio – le nouvel outil V2A de DeepMind peut apparemment générer un "nombre illimité de bandes sonores pour toute entrée vidéo", ce qui signifie qu'il est possible de l'orienter vers le résultat souhaité avec quelques simples commandes textuelles.

Google affirme que son outil se distingue des technologies concurrentes grâce à sa capacité à générer de l'audio uniquement à partir des pixels – donner une commande textuelle est apparemment purement optionnel. Cependant, DeepMind est également très conscient du potentiel important de mauvais usages et de deepfakes, c'est pourquoi cet outil V2A est pour l'instant réservé à la recherche.

V2A Cowboy - YouTube

Watch On

DeepMind déclare que "avant d'envisager de l'ouvrir au grand public, notre technologie V2A fera l'objet d'évaluations de sécurité et de tests rigoureux". Il faudra en effet des tests rigoureux, car les dix courts exemples vidéo montrent que la technologie a un potentiel explosif, tant pour le bien que pour le mal.

Le potentiel pour la réalisation de films et l'animation amateur est immense, comme le montre le clip 'horror' ci-dessous et celui d'un bébé dinosaure animé. Une scène à la Blade Runner (ci-dessous) montrant des voitures dérapant dans une ville avec une bande sonore de musique électronique montre également comment elle pourrait réduire drastiquement les budgets pour les films de science-fiction.

Les créateurs préoccupés pourront au moins se rassurer avec les limitations évidentes des dialogues montrées dans la vidéo de la 'famille en pâte à modeler'. Mais si la dernière année nous a appris quelque chose, c'est que la technologie V2A de DeepMind ne fera que s'améliorer drastiquement à partir de maintenant.

Là où nous allons, nous n'aurons plus besoin d'acteurs vocaux

V2A Cars - YouTube

Watch On

La combinaison de vidéos générées par IA avec des bandes sonores et des effets sonores créés par IA est révolutionnaire à bien des égards – et ajoute une nouvelle dimension à une course technologique déjà très intense.

OpenAI a déjà annoncé qu'il prévoyait d'ajouter de l'audio à son générateur de vidéos Sora, qui doit être lancé plus tard cette année. Mais le nouvel outil V2A de DeepMind montre que la technologie est déjà à un stade avancé et peut créer de l'audio uniquement à partir de vidéos, sans avoir besoin de commandes incessantes.

L'outil de DeepMind fonctionne en utilisant un modèle de diffusion qui combine les informations tirées des pixels de la vidéo et des commandes textuelles de l'utilisateur, puis génère de l'audio compressé qui est ensuite décodé en une forme d'onde audio. Il a apparemment été entraîné sur une combinaison de vidéos, d'audios et d'annotations générées par IA.

On ne sait pas exactement sur quels contenus cet outil V2A a été entraîné, mais Google dispose clairement d'un avantage potentiel énorme en possédant la plus grande plateforme de partage de vidéos au monde, YouTube. Ni YouTube ni ses conditions d'utilisation ne sont complètement clairs sur la manière dont ses vidéos pourraient être utilisées pour entraîner des IA, mais le PDG de YouTube, Neal Mohan, a récemment déclaré à Bloomberg que certains créateurs ont des contrats permettant que leur contenu soit utilisé pour entraîner des modèles d'IA.

Il est clair que la technologie présente encore certaines limitations en matière de dialogue et qu'elle est encore loin de produire un article fini digne d'Hollywood. Mais elle constitue déjà un outil potentiellement puissant pour le storyboarding et les réalisateurs amateurs, et la concurrence acharnée avec des acteurs comme OpenAI signifie qu'elle ne fera que s'améliorer rapidement à partir de maintenant.

Vous aimerez aussi

Quand je ne suis pas en train de plonger dans le monde fascinant de la finance et des nouvelles technologies, vous me trouverez probablement en train de parcourir le globe ou de conquérir de nouveaux mondes virtuels sur ma console de jeux.

Avec la contribution de