- Premier modèle du monde généraliste capable de générer des environnements 3D interactifs en temps réel à partir de simples prompts textuels
- Il peut fonctionner en 24 fps, en résolution 720p, avec une cohérence maintenue pendant plusieurs minutes, tout en améliorant fortement l’interactivité, le réalisme et la persistance par rapport à Genie 2
- Il peut générer de manière naturelle et variée des mondes virtuels sur des thèmes divers comme les phénomènes physiques, les écosystèmes, l’animation, les contextes historiques et géographiques
- Grâce à la fonction Promptable world events, l’utilisateur peut contrôler en temps réel par texte des événements dynamiques comme des changements de météo ou l’ajout d’objets
- Conçu pour la recherche sur les agents, il peut être relié à des systèmes comme l’agent SIMA, afin de tester l’atteinte d’objectifs à long terme ou des séquences de comportements complexes
Genie 3 : une révolution dans la simulation de mondes
Contexte de l’évolution des modèles du monde
- DeepMind est à l’avant-garde de la recherche sur les environnements de simulation pour l’apprentissage des agents IA, l’open-ended learning et la robotique
- Un modèle du monde est un système d’IA capable de prédire et reproduire les changements d’un environnement ainsi que les résultats des actions d’un agent, et il est considéré comme une étape intermédiaire importante vers l’AGI
- Après Genie 1 et 2, Genie 3 est le premier modèle du monde à offrir à la fois une interaction en temps réel et une cohérence visuelle et physique
Principales fonctionnalités de Genie 3
-
Modélisation de la nature et des phénomènes physiques
- Il reproduit naturellement, à partir de simples prompts, des phénomènes du monde réel comme l’eau, la lumière et diverses interactions environnementales
-
Écosystèmes complexes et animation
- Il peut générer aussi bien la dynamique des écosystèmes, comme le comportement animal ou la croissance des plantes, que des mondes d’animation issus de l’imagination
-
Reconstitution de contextes historiques et géographiques
- Il permet de construire en temps réel des environnements virtuels représentant des espaces variés au-delà des frontières géographiques et temporelles
-
Interaction et contrôle en temps réel
- Il visualise des changements immédiats du monde en 24 fps et 720p selon les entrées de l’utilisateur
- Il se souvient des lieux et états déjà visités afin de maintenir une cohérence physique et visuelle pendant plusieurs minutes
-
Promptable World Events
- Il permet de déclencher en temps réel, via des prompts textuels, des événements de transformation de l’environnement tels que des changements de météo ou l’ajout d’objets et de personnages
- Au-delà du simple contrôle de l’exploration, il ouvre de larges possibilités d’usage, comme la création de scénarios « et si » ou de situations inhabituelles
-
Recherche et expérimentation sur les agents
- Des agents IA spécialisés dans les environnements 3D, comme SIMA, peuvent poursuivre des objectifs complexes dans les mondes de Genie 3, afin de vérifier leur capacité à exécuter des séquences longues
- Les objectifs de l’agent ne sont pas partagés avec Genie 3 ; seuls la séquence d’actions et la simulation du monde servent à produire le résultat
Défis techniques et avancées
- Dans le processus de génération autorégressive image par image, il faut intégrer en temps réel à la fois les entrées de l’utilisateur et les séquences passées, ce qui exige une technologie de très haut niveau
- Contrairement à NeRF, Gaussian Splatting et autres approches existantes, Genie 3 repose sur une génération pure sans représentation 3D explicite, ce qui lui permet de créer des environnements bien plus dynamiques et riches
Limites et défis
- Limitation de l’éventail d’actions : les changements d’environnement fondés sur les prompts sont variés, mais les actions directement réalisables restent encore limitées
- Interaction multi-agents : la simulation précise des interactions entre plusieurs agents reste un sujet de recherche
- Limites dans la reproduction de lieux réels : il n’offre pas une exactitude parfaite des espaces géographiques réels
- Limites du rendu de texte : une représentation textuelle claire n’est possible que lorsqu’elle est explicitement demandée
- Limites de durée d’interaction : à ce stade, il ne prend en charge que des interactions continues de quelques minutes
Responsabilité et périmètre de diffusion
- Le caractère open-ended et génératif en temps réel de Genie 3 s’accompagne de nouveaux enjeux de sécurité et d’éthique, d’où une collaboration étroite avec la Responsible Development & Innovation Team
- Dans un premier temps, il sera proposé sous forme de research preview uniquement à un groupe limité de chercheurs et de créateurs, avec un élargissement progressif et des mesures de réponse aux risques fondés sur les retours recueillis
Perspectives d’avenir et usages
- Genie 3 ouvre de nouvelles possibilités dans de nombreux domaines comme l’éducation, la formation, l’apprentissage des agents IA et la validation des performances
- Il est appelé à jouer un rôle clé dans la recherche sur l’AGI (intelligence artificielle générale), avec un développement prévu dans une direction sûre et bénéfique pour l’humanité
Aucun commentaire pour le moment.