Google DeepMind dévoile le modèle du monde Genie 3
(deepmind.google)- Premier modèle du monde généraliste capable de générer des environnements 3D interactifs en temps réel à partir de simples prompts textuels
- Il peut fonctionner en 24 fps, en résolution 720p, avec une cohérence maintenue pendant plusieurs minutes, tout en améliorant fortement l’interactivité, le réalisme et la persistance par rapport à Genie 2
- Il peut générer de manière naturelle et variée des mondes virtuels sur des thèmes divers comme les phénomènes physiques, les écosystèmes, l’animation, les contextes historiques et géographiques
- Grâce à la fonction Promptable world events, l’utilisateur peut contrôler en temps réel par texte des événements dynamiques comme des changements de météo ou l’ajout d’objets
- Conçu pour la recherche sur les agents, il peut être relié à des systèmes comme l’agent SIMA, afin de tester l’atteinte d’objectifs à long terme ou des séquences de comportements complexes
Genie 3 : une révolution dans la simulation de mondes
Contexte de l’évolution des modèles du monde
- DeepMind est à l’avant-garde de la recherche sur les environnements de simulation pour l’apprentissage des agents IA, l’open-ended learning et la robotique
- Un modèle du monde est un système d’IA capable de prédire et reproduire les changements d’un environnement ainsi que les résultats des actions d’un agent, et il est considéré comme une étape intermédiaire importante vers l’AGI
- Après Genie 1 et 2, Genie 3 est le premier modèle du monde à offrir à la fois une interaction en temps réel et une cohérence visuelle et physique
Principales fonctionnalités de Genie 3
-
Modélisation de la nature et des phénomènes physiques
- Il reproduit naturellement, à partir de simples prompts, des phénomènes du monde réel comme l’eau, la lumière et diverses interactions environnementales
-
Écosystèmes complexes et animation
- Il peut générer aussi bien la dynamique des écosystèmes, comme le comportement animal ou la croissance des plantes, que des mondes d’animation issus de l’imagination
-
Reconstitution de contextes historiques et géographiques
- Il permet de construire en temps réel des environnements virtuels représentant des espaces variés au-delà des frontières géographiques et temporelles
-
Interaction et contrôle en temps réel
- Il visualise des changements immédiats du monde en 24 fps et 720p selon les entrées de l’utilisateur
- Il se souvient des lieux et états déjà visités afin de maintenir une cohérence physique et visuelle pendant plusieurs minutes
-
Promptable World Events
- Il permet de déclencher en temps réel, via des prompts textuels, des événements de transformation de l’environnement tels que des changements de météo ou l’ajout d’objets et de personnages
- Au-delà du simple contrôle de l’exploration, il ouvre de larges possibilités d’usage, comme la création de scénarios « et si » ou de situations inhabituelles
-
Recherche et expérimentation sur les agents
- Des agents IA spécialisés dans les environnements 3D, comme SIMA, peuvent poursuivre des objectifs complexes dans les mondes de Genie 3, afin de vérifier leur capacité à exécuter des séquences longues
- Les objectifs de l’agent ne sont pas partagés avec Genie 3 ; seuls la séquence d’actions et la simulation du monde servent à produire le résultat
Défis techniques et avancées
- Dans le processus de génération autorégressive image par image, il faut intégrer en temps réel à la fois les entrées de l’utilisateur et les séquences passées, ce qui exige une technologie de très haut niveau
- Contrairement à NeRF, Gaussian Splatting et autres approches existantes, Genie 3 repose sur une génération pure sans représentation 3D explicite, ce qui lui permet de créer des environnements bien plus dynamiques et riches
Limites et défis
- Limitation de l’éventail d’actions : les changements d’environnement fondés sur les prompts sont variés, mais les actions directement réalisables restent encore limitées
- Interaction multi-agents : la simulation précise des interactions entre plusieurs agents reste un sujet de recherche
- Limites dans la reproduction de lieux réels : il n’offre pas une exactitude parfaite des espaces géographiques réels
- Limites du rendu de texte : une représentation textuelle claire n’est possible que lorsqu’elle est explicitement demandée
- Limites de durée d’interaction : à ce stade, il ne prend en charge que des interactions continues de quelques minutes
Responsabilité et périmètre de diffusion
- Le caractère open-ended et génératif en temps réel de Genie 3 s’accompagne de nouveaux enjeux de sécurité et d’éthique, d’où une collaboration étroite avec la Responsible Development & Innovation Team
- Dans un premier temps, il sera proposé sous forme de research preview uniquement à un groupe limité de chercheurs et de créateurs, avec un élargissement progressif et des mesures de réponse aux risques fondés sur les retours recueillis
Perspectives d’avenir et usages
- Genie 3 ouvre de nouvelles possibilités dans de nombreux domaines comme l’éducation, la formation, l’apprentissage des agents IA et la validation des performances
- Il est appelé à jouer un rôle clé dans la recherche sur l’AGI (intelligence artificielle générale), avec un développement prévu dans une direction sûre et bénéfique pour l’humanité
1 commentaires
Avis Hacker News
S'il y a ici des personnes qui travaillent dans ce domaine ou qui ont une expertise sur le sujet, je serais curieux d'entendre leurs hypothèses sur les technologies, l'architecture, le design système et les besoins en calcul qui pourraient se cacher derrière Genie 3. Les informations publiques étant encore limitées, j'aimerais particulièrement savoir comment des spécialistes du domaine essaieraient d'anticiper ou d'inférer son implémentation
Le fait qu'ils arrivent à produire plusieurs minutes de cohérence en temps réel en 720p dépasse totalement ce à quoi je m'attendais. J'ai lu que la cohérence de Genie 3 serait une emergent capability apparue avec le changement d'échelle du modèle. Autrement dit, ce ne serait pas le résultat d'une amélioration architecturale délibérée, mais plutôt une performance apparue « par hasard » en rendant le modèle plus grand. Quelqu'un qui l'a testé a résumé les limites ici (lien X) :
la simulation physique reste difficile, et il existe encore des cas d'échec évidents sur des expériences de physique intuitive utilisées en psychologie, comme l'empilement de blocs
les interactions sociales ou les situations impliquant plusieurs agents sont difficiles, et les jeux en duel 1 contre 1 ne fonctionnent pas bien
les consignes complexes ou les logiques de jeu, comme ramasser une clé pour ouvrir une porte, ne passent pas bien non plus
l'espace d'action reste lui aussi limité
on est encore loin d'un véritable moteur de jeu, mais cela donne clairement l'occasion de voir un fragment du futur Malgré ces limites, cela donne l'impression que les world models vont jouer un rôle plus important que prévu dans la robotique et l'IA appliquée au monde réel. Les robots du futur apprendront peut-être en rêvant
Je me demande vraiment comment le multijoueur pourrait fonctionner, non seulement d'un point de vue logistique et technique, mais aussi du point de vue du gameplay
Le jeu vidéo est clairement un cas d'usage majeur, mais au fond cela semble surtout avoir été développé pour la synthetic data generation destinée à l'entraînement des robots d'entrepôt de Google. Voir à ce sujet l'article du Guardian et ce post HN publié 4 mois avant le lancement de Gemini Robot
Je ne m'attendais pas à une telle vitesse de progression technologique. J'avais écrit il y a quelques mois un billet expliquant que la manipulation des sorties de world models était la prochaine étape des jeux AAA (billet de blog), mais je pensais encore qu'il restait plusieurs années. Je plaisantais en disant que Rockstar risquait de se laisser distraire par les world models pendant le développement de GTA6, mais cela ne paraît même plus si absurde. Vu les progrès depuis l'arrivée de GameNGen, j'en viens à me demander si cela pourrait même dépasser GTA6 avant sa sortie
À ce niveau, cela semble pouvoir combler visuellement le reality gap et devenir un très bon outil pour la robotique. Bien sûr, la simulation physique reste un problème à part entière
Encore un cas où la Bitter lesson s'applique
C'est une avancée vraiment encourageante, et c'est probablement ce que Demis avait teasé le mois dernier (tweet lié). En regardant les clips publiés, on peut hasarder quelques hypothèses techniques :
J'aimerais qu'ils révèlent davantage de détails sur le fonctionnement. J'aurais aimé au moins un papier pour les chercheurs. Mon intuition est que cela ressemble à un modèle de génération vidéo classique, mais conditionné par des entrées comme movement direction, viewangle, etc. Je pense que ce sont des entrées absolues plutôt que relatives, et qu'il y a peut-être aussi une part de state simulation incluse, même si ce n'est pas certain vu qu'on voit dans la démo des effets physiques de collision d'objets ; ou alors il pourrait s'agir d'un up axis généré en 2D. Le modèle semble clairement entraîné sur des données issues de moteurs de jeu, car on voit des artefacts de reflets en screen space. Il semble aussi y avoir eu ajout de données photogrammétriques / basées sur des splats, et la résolution des éléments irréalistes paraît particulièrement faible. On remarque aussi plusieurs incohérences visibles dans la démo :
C'est vraiment impressionnant, mais on manque cruellement de détails. Je ne suis pas d'accord avec l'idée, formulée dans d'autres commentaires, que cela ne veut rien dire tant qu'on ne peut pas l'essayer soi-même, mais il est frappant de voir à quel point les choses ont changé : il y a encore quelques années, une annonce de ce type aurait forcément été accompagnée d'un papier. Aujourd'hui, on a bien quelque chose qui ressemble à une partie d'article, avec l'équipe, les démos, une citation bibtex, etc., mais sans véritable partage de recherche. En en parlant avec une connaissance, ce qui m'inquiète le plus n'est pas tant ce que l'IA sait faire tout de suite, mais la rapidité avec laquelle on est passé du mode recherche / académique à une logique économique d'« extraction de valeur ». S'appuyer, même indirectement, là-dessus pour la politique ou l'économie me semble aussi très risqué. Je ne suis pas opposé à la commercialisation, mais voir des annonces produit qui se présentent comme des papiers de recherche en même temps que des mathématiciens alertent sur la réduction du soutien à la recherche académique affaiblit la confiance à long terme
J'ai toujours du mal à imaginer qu'il soit préférable de prédire le « pixel suivant » plutôt que de construire puis rendre une scène de façon déterministe comme on l'a toujours fait. Par exemple, on pourrait utiliser l'IA pour générer des textures, des modèles et des séquences de mouvement, puis laisser la carte graphique assembler le tout et rendre la scène, ce qui permettrait à l'utilisateur de manipuler librement le modèle filaire, les textures, la position de la caméra, etc.
Cela donne une impression de révolution. On s'attendait à ce que ça arrive, mais le voir en vrai est quelque chose de nouveau. Il y a des limites, mais c'est un point de départ. Jusqu'ici, dans les moteurs de jeu, l'essentiel du travail consistait pour les ingénieurs ou les développeurs à ajuster précisément des formes géométriques, comme des triangles, pour qu'elles tombent exactement sur les pixels ; maintenant, on a l'impression que l'ordinateur « peint » directement l'image à chaque frame, sans même faire de calculs sur des triangles
Et la qualité des mains dessinées était aussi 10 fois pire avant. Maintenant que les mains, le texte et les images se sont tous améliorés, on va sans doute recommencer à jouer à « Où est Charlie ? » pour chercher les défauts. J'imagine bien qu'un jour on aura aussi de la vidéo à zoom infini avec des filigranes IA cachés à l'échelle d'un tiers de pixel. Personnellement, c'est le domaine de l'augmented video qui m'intéresse davantage. Des choses à la stormtrooper vlog sont déjà tentées par Runway et d'autres, mais c'est encore bien trop cher
Je ne pense pas qu'on puisse dire que le problème du texte est complètement résolu ; c'est clairement bien meilleur, mais même
gpt-image-1échoue encore parfois à générer du texteIl y a une différence entre le prompt et le contenu généré sur le tableau noir concernant la présence ou non d'un tiret (-)
C'est la première présentation qui a secoué à ce point mon sentiment de réalité. C'était vraiment une expérience qui retourne le cerveau
Les progrès de l'IA générative me rendent de plus en plus déprimé. J'ai l'impression qu'on nous retire la créativité de plus en plus vite. Si la technologie en restait à un état où elle demeure un outil au service de la création humaine, très bien, mais aujourd'hui elle semble plutôt viser le remplacement complet. Bien sûr, on peut dire qu'on peut toujours faire soi-même de la musique ou du dessin, mais historiquement les œuvres d'art n'ont pas été créées uniquement pour soi-même ; elles émergent aussi d'un contexte social de partage avec les autres. Alors, que nous restera-t-il au final ? Du simple travail manuel pas encore automatisé, et quand lui aussi le sera, je ne sais plus ce qu'il restera à l'humain. Va-t-on finir dans un futur où il ne reste plus qu'à envoyer au cerveau des stimuli personnalisés pour faire monter la dopamine jusqu'à le détériorer, comme c'est déjà en partie le cas avec les contenus à la TikTok ? Si tout est automatisé, je ne vois pas comment la structure économique pourra encore tenir. Cela pourrait presque être une interprétation du paradoxe de Fermi : un monde où plus personne ne comprend vraiment la technologie, où même l'accès élémentaire à la technique disparaît, et où les ressources sont irrémédiablement épuisées. Dans une telle situation, je me demande comment on pourrait encore trouver un sens à la vie
L'affirmation selon laquelle les œuvres d'art n'auraient pas été créées pour elles-mêmes, sans être partagées au public, est contredite par d'innombrables écrivains, peintres et artistes célèbres. Kafka en est un exemple emblématique, et beaucoup d'œuvres importantes n'ont été découvertes qu'après la mort de leur auteur, parfois contre sa volonté. Cela n'annule pas le reste de l'argument, mais l'art a toujours aussi existé pour soi-même, et cela continuera
À propos de l'idée qu'« on ne peut pas accepter les propos de ceux qui se réjouissent de vivre à cette époque », la joie est un sentiment, pas un acte logique. C'est une émotion issue de l'espoir et de l'imagination. L'optimisme n'a pas besoin de logique. Et la question du sens de la vie n'est pas née avec l'arrivée des LLM ; c'est un sujet abordé depuis des millénaires. Dans la [Bhagavad Gita], par exemple, le protagoniste demande à Dieu : « si même les résultats sont dénués de sens, pourquoi faut-il agir ? », sans obtenir de réponse définitive, seulement une réflexion méditative. Cette question accompagne l'humanité depuis bien avant l'intelligence artificielle
C'est un peu comme aujourd'hui, où nous n'avons plus besoin de marcher ni de porter des charges lourdes pour survivre, si bien que sans exercice nous nous affaiblissons progressivement. Dans le futur, si la majorité des gens n'a plus besoin de penser, de créer ni d'explorer pour vivre, ils deviendront peu à peu plus bêtes. Une minorité continuera certes à entraîner son esprit, mais elle ne pourra de toute façon jamais dépasser les machines en intelligence, tout comme même les meilleurs athlètes ne peuvent pas battre certaines machines
Dans le monde où nous vivons déjà, il existe sur YouTube et Spotify une quantité immense de morceaux créés par des gens qui jouent bien mieux que moi. Donc je vois ce changement comme le prolongement de cette réalité
Je n'adhère pas à ton argument. J'ai composé des centaines de morceaux au cours de ma vie sans jamais les partager avec qui que ce soit, et c'est pareil pour tous mes amis musiciens. L'acte de création existe indépendamment de la présence d'un public. En réalité, c'est même souvent presque l'inverse. Et l'histoire de la production musicale a justement consisté à abaisser progressivement les barrières d'entrée grâce aux nouvelles technologies, alors qu'autrefois l'accès était bloqué par le coût du matériel