Google DeepMind vient de dévoiler Genie 3, son nouveau modèle de monde virtuel

Contrairement à Genie 2, ce modèle permet une interaction en temps réel et offre une qualité d’image en 720p

Il devient ainsi possible de générer un environnement, de l’explorer et de le modifier instantanément

Le modèle de monde virtuel développé par l’intelligence artificielle de Google vient de franchir un cap, avec l’annonce de Genie 3 par Google DeepMind. Cette nouvelle version permet de créer un univers 3D en 720p, de s’y déplacer librement et d’en modifier les éléments en temps réel via de simples instructions.

L’effet est saisissant, et la vidéo de présentation publiée par DeepMind en donne un bon aperçu. Contrairement à Veo 3, également impressionnant, Genie 3 dépasse les huit secondes de vidéo grâce à ce que Google appelle un « horizon d’interaction » de plusieurs minutes. Cela permet non seulement d’explorer un univers généré par l’IA, mais aussi d’y introduire de nouveaux éléments et d’en ajuster les détails en direct.

Le concept évoque une fusion entre intelligence artificielle et réalité virtuelle. À partir d’un simple prompt, il devient possible de façonner un monde, d’y naviguer, de l’agrémenter. L’évolution par rapport à Genie 2, sorti fin 2024, est clairement visible. Une infographie publiée par DeepMind montre la progression depuis GameNGen jusqu’à Genie 3, en passant par Genie 2, et permet aussi de comparer cette série à Veo.

Plusieurs démonstrations sont disponibles, directement accessibles depuis le blog de Google. Certaines donnent des impressions de narration interactive, avec des scènes sur une colline enneigée ou des objectifs à accomplir dans un musée.

Genie 3: Creating dynamic worlds that you can navigate in real-time - YouTube Watch On

Google résume la nouveauté en ces termes : « Genie 3 est notre premier modèle de monde à permettre une interaction en temps réel, tout en améliorant la cohérence et le réalisme par rapport à Genie 2. » Si certains y voient déjà un usage prometteur dans les casques VR ou dans la conception de jeux vidéo, DeepMind présente avant tout ce modèle comme une avancée vers l’intelligence artificielle générale (AGI). L’objectif serait de former des agents autonomes dans des environnements immersifs quasi illimités.

Une autre amélioration notable concerne la persistance des objets. Dans une démonstration, un avatar utilise un rouleau pour peindre un mur en bleu. Lorsque la caméra se détourne puis revient, les traces de peinture sont restées exactement aux mêmes endroits.

Cette capacité rappelle les ambitions d’Apple avec visionOS 26 en matière de permanence d’objets. Toutefois, la comparaison reste limitée, car dans ce cas précis, l’environnement est entièrement généré, et non superposé au réel.

(Image credit: Google DeepMind)

DeepMind précise néanmoins certaines limites actuelles de Genie 3. Le modèle n’est pas encore capable de reproduire des lieux réels avec une précision géographique parfaite, et l’interaction reste limitée à quelques minutes. C’est un progrès significatif par rapport à Genie 2, mais il ne s’agit pas encore d’un outil exploitable sur plusieurs heures.

(Image credit: Google DeepMind)

Impossible pour l’instant d’explorer soi-même le monde de Genie 3. Le modèle n’est accessible qu’à un nombre restreint de testeurs. Google précise vouloir étendre cette disponibilité, mais cherche encore la meilleure façon de le faire. L’interface d’interaction n’a pas encore été présentée en détail, mais les démonstrations disponibles témoignent déjà d’un potentiel technologique impressionnant.

Qu’il soit réservé à la recherche ou destiné à la génération de contenus, le projet ne semble qu’à ses débuts. Genie 4 pourrait bien arriver très vite… ou voir Genie 3 s’élargir dans ses usages. En attendant, l’heure est encore à l’exploration des limites de Veo 3.