14 points par GN⁺ 2025-08-06 | 1 commentaires | Partager sur WhatsApp
  • Premier modèle du monde généraliste capable de générer des environnements 3D interactifs en temps réel à partir de simples prompts textuels
  • Il peut fonctionner en 24 fps, en résolution 720p, avec une cohérence maintenue pendant plusieurs minutes, tout en améliorant fortement l’interactivité, le réalisme et la persistance par rapport à Genie 2
  • Il peut générer de manière naturelle et variée des mondes virtuels sur des thèmes divers comme les phénomènes physiques, les écosystèmes, l’animation, les contextes historiques et géographiques
  • Grâce à la fonction Promptable world events, l’utilisateur peut contrôler en temps réel par texte des événements dynamiques comme des changements de météo ou l’ajout d’objets
  • Conçu pour la recherche sur les agents, il peut être relié à des systèmes comme l’agent SIMA, afin de tester l’atteinte d’objectifs à long terme ou des séquences de comportements complexes

Genie 3 : une révolution dans la simulation de mondes

Contexte de l’évolution des modèles du monde

  • DeepMind est à l’avant-garde de la recherche sur les environnements de simulation pour l’apprentissage des agents IA, l’open-ended learning et la robotique
  • Un modèle du monde est un système d’IA capable de prédire et reproduire les changements d’un environnement ainsi que les résultats des actions d’un agent, et il est considéré comme une étape intermédiaire importante vers l’AGI
  • Après Genie 1 et 2, Genie 3 est le premier modèle du monde à offrir à la fois une interaction en temps réel et une cohérence visuelle et physique

Principales fonctionnalités de Genie 3

  • Modélisation de la nature et des phénomènes physiques

    • Il reproduit naturellement, à partir de simples prompts, des phénomènes du monde réel comme l’eau, la lumière et diverses interactions environnementales
  • Écosystèmes complexes et animation

    • Il peut générer aussi bien la dynamique des écosystèmes, comme le comportement animal ou la croissance des plantes, que des mondes d’animation issus de l’imagination
  • Reconstitution de contextes historiques et géographiques

    • Il permet de construire en temps réel des environnements virtuels représentant des espaces variés au-delà des frontières géographiques et temporelles
  • Interaction et contrôle en temps réel

    • Il visualise des changements immédiats du monde en 24 fps et 720p selon les entrées de l’utilisateur
    • Il se souvient des lieux et états déjà visités afin de maintenir une cohérence physique et visuelle pendant plusieurs minutes
  • Promptable World Events

    • Il permet de déclencher en temps réel, via des prompts textuels, des événements de transformation de l’environnement tels que des changements de météo ou l’ajout d’objets et de personnages
    • Au-delà du simple contrôle de l’exploration, il ouvre de larges possibilités d’usage, comme la création de scénarios « et si » ou de situations inhabituelles
  • Recherche et expérimentation sur les agents

    • Des agents IA spécialisés dans les environnements 3D, comme SIMA, peuvent poursuivre des objectifs complexes dans les mondes de Genie 3, afin de vérifier leur capacité à exécuter des séquences longues
    • Les objectifs de l’agent ne sont pas partagés avec Genie 3 ; seuls la séquence d’actions et la simulation du monde servent à produire le résultat

Défis techniques et avancées

  • Dans le processus de génération autorégressive image par image, il faut intégrer en temps réel à la fois les entrées de l’utilisateur et les séquences passées, ce qui exige une technologie de très haut niveau
  • Contrairement à NeRF, Gaussian Splatting et autres approches existantes, Genie 3 repose sur une génération pure sans représentation 3D explicite, ce qui lui permet de créer des environnements bien plus dynamiques et riches

Limites et défis

  • Limitation de l’éventail d’actions : les changements d’environnement fondés sur les prompts sont variés, mais les actions directement réalisables restent encore limitées
  • Interaction multi-agents : la simulation précise des interactions entre plusieurs agents reste un sujet de recherche
  • Limites dans la reproduction de lieux réels : il n’offre pas une exactitude parfaite des espaces géographiques réels
  • Limites du rendu de texte : une représentation textuelle claire n’est possible que lorsqu’elle est explicitement demandée
  • Limites de durée d’interaction : à ce stade, il ne prend en charge que des interactions continues de quelques minutes

Responsabilité et périmètre de diffusion

  • Le caractère open-ended et génératif en temps réel de Genie 3 s’accompagne de nouveaux enjeux de sécurité et d’éthique, d’où une collaboration étroite avec la Responsible Development & Innovation Team
  • Dans un premier temps, il sera proposé sous forme de research preview uniquement à un groupe limité de chercheurs et de créateurs, avec un élargissement progressif et des mesures de réponse aux risques fondés sur les retours recueillis

Perspectives d’avenir et usages

  • Genie 3 ouvre de nouvelles possibilités dans de nombreux domaines comme l’éducation, la formation, l’apprentissage des agents IA et la validation des performances
  • Il est appelé à jouer un rôle clé dans la recherche sur l’AGI (intelligence artificielle générale), avec un développement prévu dans une direction sûre et bénéfique pour l’humanité

1 commentaires

 
GN⁺ 2025-08-06
Avis Hacker News
  • S'il y a ici des personnes qui travaillent dans ce domaine ou qui ont une expertise sur le sujet, je serais curieux d'entendre leurs hypothèses sur les technologies, l'architecture, le design système et les besoins en calcul qui pourraient se cacher derrière Genie 3. Les informations publiques étant encore limitées, j'aimerais particulièrement savoir comment des spécialistes du domaine essaieraient d'anticiper ou d'inférer son implémentation

  • Le fait qu'ils arrivent à produire plusieurs minutes de cohérence en temps réel en 720p dépasse totalement ce à quoi je m'attendais. J'ai lu que la cohérence de Genie 3 serait une emergent capability apparue avec le changement d'échelle du modèle. Autrement dit, ce ne serait pas le résultat d'une amélioration architecturale délibérée, mais plutôt une performance apparue « par hasard » en rendant le modèle plus grand. Quelqu'un qui l'a testé a résumé les limites ici (lien X) :

    • la simulation physique reste difficile, et il existe encore des cas d'échec évidents sur des expériences de physique intuitive utilisées en psychologie, comme l'empilement de blocs

    • les interactions sociales ou les situations impliquant plusieurs agents sont difficiles, et les jeux en duel 1 contre 1 ne fonctionnent pas bien

    • les consignes complexes ou les logiques de jeu, comme ramasser une clé pour ouvrir une porte, ne passent pas bien non plus

    • l'espace d'action reste lui aussi limité

    • on est encore loin d'un véritable moteur de jeu, mais cela donne clairement l'occasion de voir un fragment du futur Malgré ces limites, cela donne l'impression que les world models vont jouer un rôle plus important que prévu dans la robotique et l'IA appliquée au monde réel. Les robots du futur apprendront peut-être en rêvant

    • Je me demande vraiment comment le multijoueur pourrait fonctionner, non seulement d'un point de vue logistique et technique, mais aussi du point de vue du gameplay

    • Le jeu vidéo est clairement un cas d'usage majeur, mais au fond cela semble surtout avoir été développé pour la synthetic data generation destinée à l'entraînement des robots d'entrepôt de Google. Voir à ce sujet l'article du Guardian et ce post HN publié 4 mois avant le lancement de Gemini Robot

    • Je ne m'attendais pas à une telle vitesse de progression technologique. J'avais écrit il y a quelques mois un billet expliquant que la manipulation des sorties de world models était la prochaine étape des jeux AAA (billet de blog), mais je pensais encore qu'il restait plusieurs années. Je plaisantais en disant que Rockstar risquait de se laisser distraire par les world models pendant le développement de GTA6, mais cela ne paraît même plus si absurde. Vu les progrès depuis l'arrivée de GameNGen, j'en viens à me demander si cela pourrait même dépasser GTA6 avant sa sortie

    • À ce niveau, cela semble pouvoir combler visuellement le reality gap et devenir un très bon outil pour la robotique. Bien sûr, la simulation physique reste un problème à part entière

    • Encore un cas où la Bitter lesson s'applique

  • C'est une avancée vraiment encourageante, et c'est probablement ce que Demis avait teasé le mois dernier (tweet lié). En regardant les clips publiés, on peut hasarder quelques hypothèses techniques :

    1. On voit les textures « sauter » toutes les 4 frames, ce qui suggère probablement un VAE avec une réduction temporelle par 4, impliquant une latence d'interaction minimale de 4 frames, à moins que le VAE ne prenne en charge le control conditioning. Je n'ai pas vu la vidéo en temps réel, mais dans une scène ils alternent entre capture d'écran et b-roll du clavier
    2. Sur les mouvements rapides, on distingue un blocking spatial en 16x16, ce qui laisse penser à une réduction spatiale 16x16 dans le VAE aussi. Combiné au premier point, cela ferait 21 600 tokens par seconde, soit environ 1,3 million de tokens par minute
    3. La première frame de chaque clip paraît plus nette et moins « jeu vidéo » que les suivantes, ce qui laisse penser à une combinaison t2i (texte vers image) + i2w (image vers world). J'imagine un système où le t2i est entraîné sur des données générales, puis l'i2w finetuné sur des données de jeu avec des contrôles annotés. Avec le temps, le contraste et la saturation semblent augmenter, mais moins que dans d'autres modèles vidéo autorégressifs (vidéo d'exemple)
    • Concernant la latence, dans cette vidéo de gameplay en temps réel, j'ai calculé environ 1,1 seconde entre l'appui sur une touche et le mouvement du sujet, soit environ 33 frames à 30 fps. Dans ce retour d'expérience d'un utilisateur de l'aperçu recherche de Genie 3, il est dit qu'« il y a un certain délai de contrôle, mais qu'il est davantage lié à l'infrastructure qui fournit le service qu'au modèle lui-même », donc une bonne partie de la latence vient probablement d'une architecture client/serveur en streaming
  • J'aimerais qu'ils révèlent davantage de détails sur le fonctionnement. J'aurais aimé au moins un papier pour les chercheurs. Mon intuition est que cela ressemble à un modèle de génération vidéo classique, mais conditionné par des entrées comme movement direction, viewangle, etc. Je pense que ce sont des entrées absolues plutôt que relatives, et qu'il y a peut-être aussi une part de state simulation incluse, même si ce n'est pas certain vu qu'on voit dans la démo des effets physiques de collision d'objets ; ou alors il pourrait s'agir d'un up axis généré en 2D. Le modèle semble clairement entraîné sur des données issues de moteurs de jeu, car on voit des artefacts de reflets en screen space. Il semble aussi y avoir eu ajout de données photogrammétriques / basées sur des splats, et la résolution des éléments irréalistes paraît particulièrement faible. On remarque aussi plusieurs incohérences visibles dans la démo :

    • la scène en wingsuit semble d'une qualité d'image plus faible (peut-être initialisée à partir d'une image haute résolution ?)
    • dans la démo du jardin, la géométrie semble varier selon les variations. Le second tuyau n'apparaît que dans une version, comme si une nouvelle géométrie était générée à la volée à chaque première observation
    • dans la démo de l'école, on remarque une voiture coupée en deux à l'extérieur de la fenêtre, ainsi que des motifs répétitifs (les modèles transformer avec peu de paramètres produisent souvent des boucles infinies, ce qui peut aussi indiquer une possibilité de montée en échelle ; ils semblent peut-être utiliser un greedy sampling pour la stabilité)
    • dans la scène du musée, les reflets étranges de la boîte d'améthyste, l'arrière du mammouth qui apparaît sans reflet au bord droit de la boîte puis surgit soudainement lorsqu'on le voit à travers elle. Le reflet de la défense apparaît lui aussi d'un coup, ce qui n'a rien à voir avec l'effet Fresnel
  • C'est vraiment impressionnant, mais on manque cruellement de détails. Je ne suis pas d'accord avec l'idée, formulée dans d'autres commentaires, que cela ne veut rien dire tant qu'on ne peut pas l'essayer soi-même, mais il est frappant de voir à quel point les choses ont changé : il y a encore quelques années, une annonce de ce type aurait forcément été accompagnée d'un papier. Aujourd'hui, on a bien quelque chose qui ressemble à une partie d'article, avec l'équipe, les démos, une citation bibtex, etc., mais sans véritable partage de recherche. En en parlant avec une connaissance, ce qui m'inquiète le plus n'est pas tant ce que l'IA sait faire tout de suite, mais la rapidité avec laquelle on est passé du mode recherche / académique à une logique économique d'« extraction de valeur ». S'appuyer, même indirectement, là-dessus pour la politique ou l'économie me semble aussi très risqué. Je ne suis pas opposé à la commercialisation, mais voir des annonces produit qui se présentent comme des papiers de recherche en même temps que des mathématiciens alertent sur la réduction du soutien à la recherche académique affaiblit la confiance à long terme

  • J'ai toujours du mal à imaginer qu'il soit préférable de prédire le « pixel suivant » plutôt que de construire puis rendre une scène de façon déterministe comme on l'a toujours fait. Par exemple, on pourrait utiliser l'IA pour générer des textures, des modèles et des séquences de mouvement, puis laisser la carte graphique assembler le tout et rendre la scène, ce qui permettrait à l'utilisateur de manipuler librement le modèle filaire, les textures, la position de la caméra, etc.

    • À partir d'un certain niveau de qualité visuelle requis, il arrive un moment où la prédiction du « pixel suivant » devient en réalité moins coûteuse que le rendu classique. Le modèle peut décrire — ou prédire — ce qu'il y aurait même en zoomant à l'infini dans une surface. Cela réduit certains défis techniques difficiles à atteindre avec le rendu traditionnel
  • Cela donne une impression de révolution. On s'attendait à ce que ça arrive, mais le voir en vrai est quelque chose de nouveau. Il y a des limites, mais c'est un point de départ. Jusqu'ici, dans les moteurs de jeu, l'essentiel du travail consistait pour les ingénieurs ou les développeurs à ajuster précisément des formes géométriques, comme des triangles, pour qu'elles tombent exactement sur les pixels ; maintenant, on a l'impression que l'ordinateur « peint » directement l'image à chaque frame, sans même faire de calculs sur des triangles

  • Text rendering. Un texte net et lisible ne peut être généré de manière fiable que lorsqu'il est inclus dans la description du monde en entrée Ça me rappelle l'époque où les IA d'image n'arrivaient pas à produire de texte. Ce problème aussi a vite été résolu, donc ce n'est probablement qu'une question de temps

    • Et la qualité des mains dessinées était aussi 10 fois pire avant. Maintenant que les mains, le texte et les images se sont tous améliorés, on va sans doute recommencer à jouer à « Où est Charlie ? » pour chercher les défauts. J'imagine bien qu'un jour on aura aussi de la vidéo à zoom infini avec des filigranes IA cachés à l'échelle d'un tiers de pixel. Personnellement, c'est le domaine de l'augmented video qui m'intéresse davantage. Des choses à la stormtrooper vlog sont déjà tentées par Runway et d'autres, mais c'est encore bien trop cher

    • Je ne pense pas qu'on puisse dire que le problème du texte est complètement résolu ; c'est clairement bien meilleur, mais même gpt-image-1 échoue encore parfois à générer du texte

    • Il y a une différence entre le prompt et le contenu généré sur le tableau noir concernant la présence ou non d'un tiret (-)

  • C'est la première présentation qui a secoué à ce point mon sentiment de réalité. C'était vraiment une expérience qui retourne le cerveau

  • Les progrès de l'IA générative me rendent de plus en plus déprimé. J'ai l'impression qu'on nous retire la créativité de plus en plus vite. Si la technologie en restait à un état où elle demeure un outil au service de la création humaine, très bien, mais aujourd'hui elle semble plutôt viser le remplacement complet. Bien sûr, on peut dire qu'on peut toujours faire soi-même de la musique ou du dessin, mais historiquement les œuvres d'art n'ont pas été créées uniquement pour soi-même ; elles émergent aussi d'un contexte social de partage avec les autres. Alors, que nous restera-t-il au final ? Du simple travail manuel pas encore automatisé, et quand lui aussi le sera, je ne sais plus ce qu'il restera à l'humain. Va-t-on finir dans un futur où il ne reste plus qu'à envoyer au cerveau des stimuli personnalisés pour faire monter la dopamine jusqu'à le détériorer, comme c'est déjà en partie le cas avec les contenus à la TikTok ? Si tout est automatisé, je ne vois pas comment la structure économique pourra encore tenir. Cela pourrait presque être une interprétation du paradoxe de Fermi : un monde où plus personne ne comprend vraiment la technologie, où même l'accès élémentaire à la technique disparaît, et où les ressources sont irrémédiablement épuisées. Dans une telle situation, je me demande comment on pourrait encore trouver un sens à la vie

    • L'affirmation selon laquelle les œuvres d'art n'auraient pas été créées pour elles-mêmes, sans être partagées au public, est contredite par d'innombrables écrivains, peintres et artistes célèbres. Kafka en est un exemple emblématique, et beaucoup d'œuvres importantes n'ont été découvertes qu'après la mort de leur auteur, parfois contre sa volonté. Cela n'annule pas le reste de l'argument, mais l'art a toujours aussi existé pour soi-même, et cela continuera

    • À propos de l'idée qu'« on ne peut pas accepter les propos de ceux qui se réjouissent de vivre à cette époque », la joie est un sentiment, pas un acte logique. C'est une émotion issue de l'espoir et de l'imagination. L'optimisme n'a pas besoin de logique. Et la question du sens de la vie n'est pas née avec l'arrivée des LLM ; c'est un sujet abordé depuis des millénaires. Dans la [Bhagavad Gita], par exemple, le protagoniste demande à Dieu : « si même les résultats sont dénués de sens, pourquoi faut-il agir ? », sans obtenir de réponse définitive, seulement une réflexion méditative. Cette question accompagne l'humanité depuis bien avant l'intelligence artificielle

    • C'est un peu comme aujourd'hui, où nous n'avons plus besoin de marcher ni de porter des charges lourdes pour survivre, si bien que sans exercice nous nous affaiblissons progressivement. Dans le futur, si la majorité des gens n'a plus besoin de penser, de créer ni d'explorer pour vivre, ils deviendront peu à peu plus bêtes. Une minorité continuera certes à entraîner son esprit, mais elle ne pourra de toute façon jamais dépasser les machines en intelligence, tout comme même les meilleurs athlètes ne peuvent pas battre certaines machines

    • Dans le monde où nous vivons déjà, il existe sur YouTube et Spotify une quantité immense de morceaux créés par des gens qui jouent bien mieux que moi. Donc je vois ce changement comme le prolongement de cette réalité

    • Je n'adhère pas à ton argument. J'ai composé des centaines de morceaux au cours de ma vie sans jamais les partager avec qui que ce soit, et c'est pareil pour tous mes amis musiciens. L'acte de création existe indépendamment de la présence d'un public. En réalité, c'est même souvent presque l'inverse. Et l'histoire de la production musicale a justement consisté à abaisser progressivement les barrières d'entrée grâce aux nouvelles technologies, alors qu'autrefois l'accès était bloqué par le coût du matériel