Project Genie : expérimenter des mondes infinis et interactifs

(blog.google)

6 points par GN⁺ 2026-01-30 | 1 commentaires | Partager sur WhatsApp

Le Project Genie de Google est un prototype de recherche expérimental qui permet aux utilisateurs de générer, explorer et remixer des mondes virtuels interactifs à l’aide de texte et d’images
Il repose sur le modèle Genie 3 et génère en temps réel les trajets et l’environnement en fonction des déplacements de l’utilisateur
Proposé sous la forme d’une web app, il intègre les modèles Nano Banana Pro et Gemini pour prendre en charge l’esquisse de mondes, l’exploration et le remix
En raison des limites du modèle, cette première version comporte des contraintes telles que des incohérences avec les lois de la physique, une latence dans le contrôle des personnages et une limite de 60 secondes
Il est actuellement accessible aux abonnés Google AI Ultra (18 ans et plus) aux États-Unis, avec une extension prévue à d’autres régions

Présentation de Project Genie

Project Genie est un prototype de recherche expérimental développé par Google DeepMind sur la base de Genie 3, qui offre un environnement où les utilisateurs peuvent créer, explorer et remixer eux-mêmes des mondes virtuels
- Accessible aux abonnés Google AI Ultra (18 ans et plus) aux États-Unis
- Les utilisateurs peuvent générer des mondes à partir de prompts textuels et d’images, puis les explorer en temps réel
Ce projet constitue une première étape pour rendre la technologie de génération de mondes immersifs accessible au grand public, et s’inscrit comme une extension de la recherche sur les world models

Progrès des world models

Les world models sont des systèmes capables de simuler les changements dynamiques d’un environnement et de prédire l’impact des actions
Google DeepMind vise à aller au-delà de la recherche sur des agents conçus pour des environnements spécifiques comme les échecs ou le go, avec l’objectif de développer des systèmes AGI capables d’explorer la diversité du monde réel
Genie 3 génère les trajets en temps réel en fonction des déplacements de l’utilisateur et simule les interactions physiques
- Il prend en charge une génération de mondes dynamique, et non de simples instantanés 3D statiques
- Il peut être utilisé dans divers scénarios comme la robotique, l’animation, la fiction ou l’exploration de lieux historiques

Fonctionnement de Project Genie

Il s’agit d’un prototype web, intégrant non seulement Genie 3 mais aussi les modèles Nano Banana Pro et Gemini
Il se compose de trois fonctions clés
1. World Sketching (esquisse de monde)
- Concevoir un environnement vivant à partir de texte et d’images (générées ou importées)
- Il est possible de définir le personnage et la manière d’explorer, avec la prise en charge de différents modes de déplacement comme la marche, le vol ou la conduite
- L’intégration de Nano Banana Pro permet de prévisualiser le monde et d’en ajuster les détails
- Choix possible entre une vue à la première ou à la troisième personne
2. World Exploration (exploration du monde)
- Les mondes générés deviennent des environnements explorables, où les trajets sont créés en temps réel selon les actions de l’utilisateur
- Il est possible d’ajuster le point de vue de la caméra pendant l’exploration
3. World Remixing (remix du monde)
- Il est possible de recomposer un nouveau monde avec une interprétation différente à partir du prompt d’un monde existant
- Grâce à une galerie ou à une fonction d’exploration aléatoire, on peut explorer ou modifier les mondes d’autres utilisateurs
- Les mondes terminés et le parcours d’exploration peuvent être téléchargés sous forme de vidéo

Construire une IA responsable

Project Genie est un prototype de recherche expérimental mené au sein de Google Labs, et il est exploité conformément aux principes de développement responsable de l’IA
En raison des limites actuelles du modèle, les contraintes suivantes sont précisées
- Les mondes générés peuvent différer de la réalité ou être incohérents avec le prompt ou les lois de la physique
- Une latence dans le contrôle des personnages ou une baisse de réactivité peuvent survenir
- Une limite de génération de 60 secondes est imposée
La fonction de variation d’événements pilotée par prompt, annoncée en août 2025, n’est pas encore incluse
Les futures mises à jour et améliorations pourront être suivies sur la page officielle de DeepMind

Projets à venir et élargissement de l’accès

Project Genie a été développé sur la base d’une recherche collaborative avec des testeurs de confiance
Cette ouverture constitue une étape destinée à comprendre comment les utilisateurs emploient réellement les world models
Pour l’instant, il est réservé aux abonnés Google AI Ultra aux États-Unis, avec un élargissement prévu à davantage de régions
À long terme, Google prévoit de rendre la technologie de génération de mondes accessible à un plus grand nombre d’utilisateurs

1 commentaires

GN⁺ 2026-01-30

Commentaires sur Hacker News

Ces derniers temps, je repense sans arrêt à The Experience Machine d’Andy Clark
C’est la théorie selon laquelle le cerveau humain ne perçoit pas directement le monde, mais fait l’expérience de la réalité à travers une simulation générée en interne, corrigée par les sensations
Autrement dit, nous vivons dans un modèle génératif haute résolution, et les sens servent à ajuster les signaux d’erreur de ce modèle
Tout comme Genie 3 prédit l’image suivante dans l’espace latent, le cerveau humain chercherait lui aussi, via l’« Active Inference », à minimiser l’écart entre attentes et expérience réelle
Au fond, le sentiment de réalité ne serait pas un enregistrement direct du monde extérieur, mais une simulation interactive continuellement recalibrée
- Sur le plan neurologique, c’est déjà une idée assez bien établie
  Par exemple, les rêves peuvent être vus comme un cas où le modèle interne fonctionne librement pendant que les entrées sensorielles sont coupées
- Comme vidéos liées, je recommande Why Your Brain Blinds You For 2 Hours Every Day de kurzgesagt ainsi que sa liste de sources
- Your Brain Hallucinates Your Conscious Reality d’Anil Seth va dans le même sens
  Ce type de sujet est abordé depuis longtemps aussi en philosophie et dans les religions, et je trouve fascinante l’idée que la conscience humaine construise la réalité comme sa propre projection
- Le post-traitement des photos sur smartphone peut aussi servir d’analogie
  On en vient à se demander à partir de quel moment ce n’est plus une photo mais une œuvre impressionniste calculée
- The Case Against Reality de Donald Hoffman mérite aussi le détour
Beaucoup de gens semblent prendre Genie pour un simple produit destiné aux jeux ou au cinéma
Mais son véritable objectif est de construire le « moteur d’imagination » des prochaines générations d’IA et de robots, autrement dit un modèle du monde qui simule les conséquences d’actions pour aider à la prise de décision
- Je suis d’accord. On disait que les LLM n’avaient pas de modèle du monde, et on passe maintenant à l’étape suivante
  J’imagine une architecture qui encode des vidéos du monde réel à une certaine fréquence d’images afin d’ancrer l’imagination du modèle dans des données réelles, puis explore différents scénarios d’action avant d’envoyer la meilleure prédiction au moteur
  Le réglage temporel ne sera pas simple, mais les grandes lignes sont déjà visibles
- J’ai un avis un peu différent. Si on veut une vraie imagination, je ne pense pas qu’il soit nécessaire de décoder de la vidéo
  Genie génère de la vidéo comme interface que les humains peuvent comprendre et déboguer
  En ce sens, le but est différent : c’est plutôt un jeu d’expérimentation IA pour chercheurs
- Mais une telle structure est beaucoup trop coûteuse. Pour la robotique, il faudra probablement une architecture complètement différente
- Instagram aussi était au départ une appli pour partager des photos entre amis, et c’est devenu une plateforme addictive
  Si Genie se combine à la VR, on pourrait voir arriver un point de bascule dystopique du même genre
- Ce mappage d’environnement et cette génération de résultats alternatifs par l’IA reviennent en fin de compte au concept de holodeck
  Mais je continue à préférer le danger et la vitalité du réel
Je suis vraiment ravi de voir Genie rendu public
Il y a déjà des vidéos intéressantes de premiers utilisateurs :
exploration urbaine, simulation d’hélicoptère, station spatiale et Dunkin Donuts, simulation d’ordinateur portable, loutre pilote
- J’ai moi aussi participé en tant que testeur précoce
  J’ai créé toutes sortes de mondes : marcher sur la Lune, rencontrer Holmes et Watson au 221B Baker Street, ou encore explorer un bubble tea géant dans un marché de nuit de Taipei
  Il y a aussi une vidéo de démo
  Ce n’est encore qu’un prototype expérimental, mais on a l’impression d’apercevoir un indice du futur
- C’est impressionnant sur le plan technique, mais ça manque d’immersion
  Pouvoir générer des assets Unreal 5 avec quelques mots, c’est cool, mais je n’ai pas vraiment envie de jouer comme ça
  Et je n’ai pas non plus envie de payer un coût de calcul à la seconde
- J’aimerais vraiment voir une version qui recrée l’ère des dinosaures
- Je serais curieux d’avoir des avis sur Project Genie
La vraie percée de Genie, c’est qu’on peut se retourner
Les simulateurs d’autres labos n’arrivaient pas à maintenir la cohérence hors champ, alors que Genie y parvient
- J’ai entendu dire que le labo de Fei-Fei Li générait un véritable monde 3D
  Cela dit, cette approche risque d’être plus limitée pour le rendu animé
- Je trouve surprenant que les chercheurs en ML aient mis aussi longtemps à comprendre la nécessité d’une structure de cache explicite
- Du coup, je me demande si, en revenant au même endroit une semaine plus tard, la scène serait toujours conservée
Il existe une interview vidéo de l’équipe Project Genie
Lien YouTube
Genie est un prototype de recherche permettant de générer, explorer et faire interagir en temps réel des mondes photoréalistes infiniment variés
L’entretien traite du passage de la génération vidéo passive aux médias interactifs, des défis techniques liés à la cohérence du monde et à la persistance de la mémoire, ainsi que du rôle de terrain d’entraînement pour les agents IA
Plus je vois ce genre de technologie, plus j’ai envie au contraire de passer du temps dans le monde réel
D’éteindre l’écran et de refaire les choses que j’aime
- Moi aussi, ça me fait cet effet. Au moment où je vois quelqu’un taper sur un clavier dans la vidéo, je ressens une certaine amertume
  Un monde virtuel construit à partir de scènes réellement filmées provoque au contraire une forme de tristesse
- J’adore l’IA, mais j’espère au contraire que ce genre de technologie nous rappellera la valeur de l’expérience humaine réelle
- J’ai travaillé toute ma vie dans la tech, mais maintenant j’ai envie de tout éteindre
- Ironiquement, ce genre de progrès me fait davantage croire à l’hypothèse de la simulation
  Peut-être que la réalité elle-même est déjà une simulation
- Le ciel est bleu, il fait beau, mais comme j’ai la flemme, je me dis que je pourrais tout aussi bien lancer une simulation de promenade
Ça m’a rappelé un projet perso posté autrefois sur HN qui entraînait un modèle du monde à partir d’une vidéo de parc
Il y avait aussi une démo interactive, et Genie donne l’impression de pousser cette idée un cran plus loin
C’est dommage que les blogs et démos indé ne soient pas cités
- Oui, le concept est similaire, mais la différence d’échelle est extrême
  Le modèle du parc avait 5 millions de paramètres et a été entraîné sur 15 minutes de vidéo, au point de tourner sur iPhone
  Genie 3, lui, est un modèle géant de plusieurs milliards de paramètres entraîné sur des millions d’heures de vidéo
  Des modèles intermédiaires commencent aussi à apparaître, donc dans 1 à 2 ans, une exécution locale sur GPU gaming semble plausible
  Exemples : LingBot-World, Waypoint 1
Tout cela ressemble beaucoup au thème du film The Thirteenth Floor
Lien vers la bande-annonce
J’aimerais que quelqu’un crée un monde à partir de ce GIF
Je me pose la question depuis longtemps : pourquoi Meta (FB) n’est-il pas plus offensif sur les modèles du monde ?
C’est pourtant le cœur même de la vision du métavers, et malgré ça ils ont laissé partir Yann LeCun
- LeCun a provoqué des fractures internes à cause de l’absence de résultats et d’une orientation de recherche obstinée
  Il a refusé de participer à la course aux LLM et s’est concentré uniquement sur des théories non validées
  Résultat, Meta a décroché du groupe de tête de l’IA, et LeCun est parti en ayant sauvé son prestige
- J’expliquerais la différence entre JEPA et Genie ainsi
  JEPA, comme un romancier, résume : « le chien court vers le facteur »
  Genie, comme un peintre, doit dessiner directement la scène suivante pour que l’histoire existe
  Autrement dit, Genie fait de la génération image par image, JEPA de la prédiction au niveau conceptuel
- Je suis entièrement d’accord. Les modèles du monde sont la carte de la dernière chance pour rentabiliser les investissements de Reality Labs
  S’ils ne parviennent pas à en faire un produit, il faudra sans doute fermer le projet lui-même
- Les échecs ne sont pas rendus publics. On ne sait donc pas vraiment où Meta a investi en pratique
- Fondamentalement, les gens n’aiment pas porter des casques VR
  Même avec de très bons contenus, cela reste encore un marché de niche

Project Genie : expérimenter des mondes infinis et interactifs

Présentation de Project Genie

Progrès des world models

Fonctionnement de Project Genie

1. World Sketching (esquisse de monde)

2. World Exploration (exploration du monde)

3. World Remixing (remix du monde)

Construire une IA responsable

Projets à venir et élargissement de l’accès

À lire aussi

1 commentaires

Commentaires sur Hacker News