- Le Project Genie de Google est un prototype de recherche expérimental qui permet aux utilisateurs de générer, explorer et remixer des mondes virtuels interactifs à l’aide de texte et d’images
- Il repose sur le modèle Genie 3 et génère en temps réel les trajets et l’environnement en fonction des déplacements de l’utilisateur
- Proposé sous la forme d’une web app, il intègre les modèles Nano Banana Pro et Gemini pour prendre en charge l’esquisse de mondes, l’exploration et le remix
- En raison des limites du modèle, cette première version comporte des contraintes telles que des incohérences avec les lois de la physique, une latence dans le contrôle des personnages et une limite de 60 secondes
- Il est actuellement accessible aux abonnés Google AI Ultra (18 ans et plus) aux États-Unis, avec une extension prévue à d’autres régions
Présentation de Project Genie
- Project Genie est un prototype de recherche expérimental développé par Google DeepMind sur la base de Genie 3, qui offre un environnement où les utilisateurs peuvent créer, explorer et remixer eux-mêmes des mondes virtuels
- Accessible aux abonnés Google AI Ultra (18 ans et plus) aux États-Unis
- Les utilisateurs peuvent générer des mondes à partir de prompts textuels et d’images, puis les explorer en temps réel
- Ce projet constitue une première étape pour rendre la technologie de génération de mondes immersifs accessible au grand public, et s’inscrit comme une extension de la recherche sur les world models
Progrès des world models
- Les world models sont des systèmes capables de simuler les changements dynamiques d’un environnement et de prédire l’impact des actions
- Google DeepMind vise à aller au-delà de la recherche sur des agents conçus pour des environnements spécifiques comme les échecs ou le go, avec l’objectif de développer des systèmes AGI capables d’explorer la diversité du monde réel
- Genie 3 génère les trajets en temps réel en fonction des déplacements de l’utilisateur et simule les interactions physiques
- Il prend en charge une génération de mondes dynamique, et non de simples instantanés 3D statiques
- Il peut être utilisé dans divers scénarios comme la robotique, l’animation, la fiction ou l’exploration de lieux historiques
Fonctionnement de Project Genie
- Il s’agit d’un prototype web, intégrant non seulement Genie 3 mais aussi les modèles Nano Banana Pro et Gemini
- Il se compose de trois fonctions clés
-
1. World Sketching (esquisse de monde)
- Concevoir un environnement vivant à partir de texte et d’images (générées ou importées)
- Il est possible de définir le personnage et la manière d’explorer, avec la prise en charge de différents modes de déplacement comme la marche, le vol ou la conduite
- L’intégration de Nano Banana Pro permet de prévisualiser le monde et d’en ajuster les détails
- Choix possible entre une vue à la première ou à la troisième personne
-
2. World Exploration (exploration du monde)
- Les mondes générés deviennent des environnements explorables, où les trajets sont créés en temps réel selon les actions de l’utilisateur
- Il est possible d’ajuster le point de vue de la caméra pendant l’exploration
-
3. World Remixing (remix du monde)
- Il est possible de recomposer un nouveau monde avec une interprétation différente à partir du prompt d’un monde existant
- Grâce à une galerie ou à une fonction d’exploration aléatoire, on peut explorer ou modifier les mondes d’autres utilisateurs
- Les mondes terminés et le parcours d’exploration peuvent être téléchargés sous forme de vidéo
Construire une IA responsable
- Project Genie est un prototype de recherche expérimental mené au sein de Google Labs, et il est exploité conformément aux principes de développement responsable de l’IA
- En raison des limites actuelles du modèle, les contraintes suivantes sont précisées
- Les mondes générés peuvent différer de la réalité ou être incohérents avec le prompt ou les lois de la physique
- Une latence dans le contrôle des personnages ou une baisse de réactivité peuvent survenir
- Une limite de génération de 60 secondes est imposée
- La fonction de variation d’événements pilotée par prompt, annoncée en août 2025, n’est pas encore incluse
- Les futures mises à jour et améliorations pourront être suivies sur la page officielle de DeepMind
Projets à venir et élargissement de l’accès
- Project Genie a été développé sur la base d’une recherche collaborative avec des testeurs de confiance
- Cette ouverture constitue une étape destinée à comprendre comment les utilisateurs emploient réellement les world models
- Pour l’instant, il est réservé aux abonnés Google AI Ultra aux États-Unis, avec un élargissement prévu à davantage de régions
- À long terme, Google prévoit de rendre la technologie de génération de mondes accessible à un plus grand nombre d’utilisateurs
1 commentaires
Commentaires sur Hacker News
Ces derniers temps, je repense sans arrêt à The Experience Machine d’Andy Clark
C’est la théorie selon laquelle le cerveau humain ne perçoit pas directement le monde, mais fait l’expérience de la réalité à travers une simulation générée en interne, corrigée par les sensations
Autrement dit, nous vivons dans un modèle génératif haute résolution, et les sens servent à ajuster les signaux d’erreur de ce modèle
Tout comme Genie 3 prédit l’image suivante dans l’espace latent, le cerveau humain chercherait lui aussi, via l’« Active Inference », à minimiser l’écart entre attentes et expérience réelle
Au fond, le sentiment de réalité ne serait pas un enregistrement direct du monde extérieur, mais une simulation interactive continuellement recalibrée
Par exemple, les rêves peuvent être vus comme un cas où le modèle interne fonctionne librement pendant que les entrées sensorielles sont coupées
Ce type de sujet est abordé depuis longtemps aussi en philosophie et dans les religions, et je trouve fascinante l’idée que la conscience humaine construise la réalité comme sa propre projection
On en vient à se demander à partir de quel moment ce n’est plus une photo mais une œuvre impressionniste calculée
Beaucoup de gens semblent prendre Genie pour un simple produit destiné aux jeux ou au cinéma
Mais son véritable objectif est de construire le « moteur d’imagination » des prochaines générations d’IA et de robots, autrement dit un modèle du monde qui simule les conséquences d’actions pour aider à la prise de décision
J’imagine une architecture qui encode des vidéos du monde réel à une certaine fréquence d’images afin d’ancrer l’imagination du modèle dans des données réelles, puis explore différents scénarios d’action avant d’envoyer la meilleure prédiction au moteur
Le réglage temporel ne sera pas simple, mais les grandes lignes sont déjà visibles
Genie génère de la vidéo comme interface que les humains peuvent comprendre et déboguer
En ce sens, le but est différent : c’est plutôt un jeu d’expérimentation IA pour chercheurs
Si Genie se combine à la VR, on pourrait voir arriver un point de bascule dystopique du même genre
Mais je continue à préférer le danger et la vitalité du réel
Je suis vraiment ravi de voir Genie rendu public
Il y a déjà des vidéos intéressantes de premiers utilisateurs :
exploration urbaine, simulation d’hélicoptère, station spatiale et Dunkin Donuts, simulation d’ordinateur portable, loutre pilote
J’ai créé toutes sortes de mondes : marcher sur la Lune, rencontrer Holmes et Watson au 221B Baker Street, ou encore explorer un bubble tea géant dans un marché de nuit de Taipei
Il y a aussi une vidéo de démo
Ce n’est encore qu’un prototype expérimental, mais on a l’impression d’apercevoir un indice du futur
Pouvoir générer des assets Unreal 5 avec quelques mots, c’est cool, mais je n’ai pas vraiment envie de jouer comme ça
Et je n’ai pas non plus envie de payer un coût de calcul à la seconde
La vraie percée de Genie, c’est qu’on peut se retourner
Les simulateurs d’autres labos n’arrivaient pas à maintenir la cohérence hors champ, alors que Genie y parvient
Cela dit, cette approche risque d’être plus limitée pour le rendu animé
Il existe une interview vidéo de l’équipe Project Genie
Lien YouTube
Genie est un prototype de recherche permettant de générer, explorer et faire interagir en temps réel des mondes photoréalistes infiniment variés
L’entretien traite du passage de la génération vidéo passive aux médias interactifs, des défis techniques liés à la cohérence du monde et à la persistance de la mémoire, ainsi que du rôle de terrain d’entraînement pour les agents IA
Plus je vois ce genre de technologie, plus j’ai envie au contraire de passer du temps dans le monde réel
D’éteindre l’écran et de refaire les choses que j’aime
Un monde virtuel construit à partir de scènes réellement filmées provoque au contraire une forme de tristesse
Peut-être que la réalité elle-même est déjà une simulation
Ça m’a rappelé un projet perso posté autrefois sur HN qui entraînait un modèle du monde à partir d’une vidéo de parc
Il y avait aussi une démo interactive, et Genie donne l’impression de pousser cette idée un cran plus loin
C’est dommage que les blogs et démos indé ne soient pas cités
Le modèle du parc avait 5 millions de paramètres et a été entraîné sur 15 minutes de vidéo, au point de tourner sur iPhone
Genie 3, lui, est un modèle géant de plusieurs milliards de paramètres entraîné sur des millions d’heures de vidéo
Des modèles intermédiaires commencent aussi à apparaître, donc dans 1 à 2 ans, une exécution locale sur GPU gaming semble plausible
Exemples : LingBot-World, Waypoint 1
Tout cela ressemble beaucoup au thème du film The Thirteenth Floor
Lien vers la bande-annonce
J’aimerais que quelqu’un crée un monde à partir de ce GIF
Je me pose la question depuis longtemps : pourquoi Meta (FB) n’est-il pas plus offensif sur les modèles du monde ?
C’est pourtant le cœur même de la vision du métavers, et malgré ça ils ont laissé partir Yann LeCun
Il a refusé de participer à la course aux LLM et s’est concentré uniquement sur des théories non validées
Résultat, Meta a décroché du groupe de tête de l’IA, et LeCun est parti en ayant sauvé son prestige
JEPA, comme un romancier, résume : « le chien court vers le facteur »
Genie, comme un peintre, doit dessiner directement la scène suivante pour que l’histoire existe
Autrement dit, Genie fait de la génération image par image, JEPA de la prédiction au niveau conceptuel
S’ils ne parviennent pas à en faire un produit, il faudra sans doute fermer le projet lui-même
Même avec de très bons contenus, cela reste encore un marché de niche