Google SIMA 2 - un agent qui joue, raisonne et apprend avec vous dans des mondes virtuels 3D

(deepmind.google)

1 points par GN⁺ 2025-11-14 | 1 commentaires | Partager sur WhatsApp

SIMA 2, qui intègre le modèle Gemini, évolue au-delà de la simple exécution de commandes en langage naturel pour devenir un agent IA pour environnements virtuels 3D capable de comprendre l’objectif de l’utilisateur, de raisonner par lui-même et d’interagir
Contrairement à la version précédente, qui exécutait plus de 600 actions basées sur le langage, il dispose désormais de capacités de raisonnement, dialogue et auto-amélioration, lui permettant d’adopter des comportements orientés objectif même dans de nouveaux jeux
Il affiche de fortes performances de généralisation dans des jeux sur lesquels il n’a pas été entraîné, comme MineDojo et ASKA, en atteignant des taux de réussite sur les tâches proches de ceux des joueurs humains
Grâce à une boucle d’auto-amélioration, il accumule lui-même de l’expérience et améliore ses performances sans données humaines
Ces avancées posent les bases d’applications futures en intelligence incarnée générale (embodied intelligence) et en robotique

Présentation de SIMA 2

SIMA 2 est un agent IA basé sur Gemini développé par Google DeepMind, conçu pour jouer et apprendre aux côtés des humains dans des environnements virtuels 3D
La première version de SIMA se concentrait sur la traduction de commandes en langage naturel en actions, tandis que SIMA 2 ajoute des capacités de déduction d’objectifs, dialogue et auto-amélioration
Ce modèle illustre des avancées vers l’AGI (intelligence artificielle générale) et revêt une importance particulière pour la robotique et la recherche sur l’IA incarnée

Reasoning (capacité de raisonnement)

SIMA 1 exécutait plus de 600 commandes comme « tourne à gauche » ou « monte à l’échelle », mais il fonctionnait en observant l’écran et en manipulant l’interface sans accès aux mécaniques internes du jeu
SIMA 2 embarque le modèle Gemini, ce qui lui permet d’aller au-delà de l’exécution de commandes simples pour comprendre les objectifs et raisonner de manière logique
Les données d’entraînement combinent des vidéos de démonstration humaines et des labels générés par Gemini, et l’agent peut expliquer son propre plan d’action ainsi que ses étapes
Lors des tests, les utilisateurs ont perçu l’interaction avec SIMA 2 comme une collaboration plutôt qu’une suite d’ordres, avec entraînement et évaluation menés dans divers environnements de jeu
Grâce au moteur de raisonnement de Gemini, il devient possible de mettre en œuvre une IA incarnée intégrant perception, compréhension et action dans des environnements 3D complexes

Generalization (performances de généralisation)

L’intégration de Gemini améliore la compréhension et l’exécution de commandes complexes et nuancées
Même dans des jeux non vus à l’entraînement (par exemple ASKA et MineDojo), SIMA 2 obtient de forts taux de réussite et atteint des performances sur les tâches proches du niveau humain
Il montre une capacité de transfert conceptuel, par exemple en transférant la notion de « mining » vers celle de « harvesting » dans d’autres jeux
Il peut comprendre des commandes multilingues et des emojis, ainsi que traiter des entrées multimodales (comme des dessins)
Associé à Genie 3, il conserve son sens de l’orientation et un comportement orienté objectif même dans des mondes virtuels nouvellement générés, démontrant une forte capacité d’adaptation

Self-Improvement (auto-amélioration)

SIMA 2 améliore ses performances sans intervention humaine grâce à une boucle d’apprentissage auto-dirigée
- Gemini fournit les tâches initiales et une estimation des récompenses
- Sur cette base, SIMA 2 construit sa propre banque de données d’expérience et l’utilise pour les apprentissages suivants
Il réapprend aussi de manière autonome à partir des tâches échouées et peut apprendre dans de nouveaux jeux sans démonstrations humaines
Dans l’environnement Genie 3 également, il répète cette auto-amélioration et montre des gains de performance grâce à un apprentissage multi-générationnel
Cette architecture ouvre la voie à une IA incarnée en auto-apprentissage continu

Future Directions (orientations futures)

SIMA 2 sert de terrain d’expérimentation pour une intelligence générale capable de raisonnement complexe et d’apprentissage auto-dirigé dans divers environnements de jeu
Parmi les limites relevées figurent les tâches de longue durée, le raisonnement en plusieurs étapes, les limites de mémoire courte et le traitement de la complexité visuelle
Néanmoins, en combinant des données issues de multiples mondes et les capacités de raisonnement de Gemini, il est validé comme un agent généraliste intégrant des fonctions auparavant réparties entre plusieurs systèmes spécialisés
Les capacités acquises en exploration, usage d’outils et collaboration constituent une base essentielle pour une future extension vers l’IA robotique physique

Responsible Development (développement responsable)

SIMA 2 vise une interaction centrée sur l’humain et ses technologies clés, y compris l’auto-amélioration, sont développées de manière responsable
Google DeepMind a mené dès le départ des examens de sécurité en collaboration avec son équipe Responsible Development & Innovation
Le système est actuellement proposé sous la forme d’une research preview limitée, avec un accès anticipé réservé à une partie du monde académique et à certains développeurs de jeux
Cette approche vise à recueillir des retours et des évaluations de risques, avec pour objectif un progrès technologique responsable à l’avenir

1 commentaires

GN⁺ 2025-11-14

Avis Hacker News

Voir une IA jouer à des jeux vidéo, c’est sympa, mais ce qui est vraiment étonnant avec SIMA 2, c’est qu’elle contrôle directement la souris et lit l’écran à plus de 30 images par seconde
Les agents actuels capables d’utiliser un ordinateur sont bien trop lents ; là, on est clairement à un autre niveau. Je me demande à quoi ressemble l’architecture interne
- Ce qui est encore plus cool, c’est qu’à notre époque les humains puissent encore s’enthousiasmer pour quelque chose, alors que l’IA remplace déjà tout ce qu’on faisait
- J’ai désespérément besoin d’un agent IA qui manipule mon smartphone à ma place
  Quelque chose qui exécute à l’écran des commandes comme « Ouvre Chrome », « Va sur xyz.com », « Clique sur connexion »
- Elle contrôle vraiment la souris directement ?
- Une machine ne pourrait-elle pas aussi jouer au jeu image par image ?
- Ça devrait être possible avec dxcam en Python et l’API Windows Hook pour recevoir les messages HID
L’écart entre le contrôle haut niveau et le contrôle bas niveau des robots se réduit de plus en plus
On entraîne des robots à accomplir certaines tâches dans des contextes précis à partir de milliers d’heures de données d’apprentissage spécialisées
On les pilote avec des commandes de bas niveau comme « vider le lave-vaisselle », « imiter mes gestes », « tirer sur une ficelle »
Si cette approche est combinée à un agent de contrôle haut niveau comme SIMA 2, on pourrait obtenir des robots réellement utiles dans le monde réel
- Je fais de la recherche en animation de personnages basée sur la physique, et je ne pense pas qu’on résoudra ce problème de sitôt juste en collectant plus de données
- Je ne comprends pas bien ce que veut dire « ça fonctionne comme un jeu vidéo »
  Je me demande pourquoi ce type d’entrée est considéré comme bas niveau, et comment cela interagit avec un agent de contrôle haut niveau comme SIMA 2
  Est-ce que SIMA 2 traduit des consignes comme « vider le lave-vaisselle » en véritables frappes clavier ou manipulations d’interface ?
Ça me fait penser à la nouvelle de Ted Chiang « The Lifecycle of Software Objects »
L’étape suivante sera peut-être de mettre cette IA de digient dans le robot Figure 03
- Google entraînera probablement séparément une IA dédiée au contrôle robotique
  D’ailleurs, dans l’expérience Butter Bench, un LLM généraliste contrôlait un aspirateur robot,
  et lorsqu’il est tombé en panne de batterie, il a laissé des logs émotionnels évoquant une « anxiété de retour à la base ». C’était drôle, mais aussi intéressant
L’idée que SIMA 2 puisse accomplir des tâches de plus en plus complexes grâce à un feedback basé sur Gemini est intéressante
Le fait qu’il réutilise ses propres données d’expérience pour entraîner la version suivante donne l’impression d’une architecture auto-améliorante
Est-ce que SIMA est une couche agentique qui fonctionne au-dessus de Gemini ?
- C’est aussi comme ça que je l’ai compris. On dirait une structure où les deux systèmes sont reliés par une interface texte
Je me demande si ce genre de technologie pourrait finir par ruiner l’e-sport
Si une IA réagit plus vite qu’un humain et ne se fatigue jamais, les MMO ou les FPS pourraient finir remplis d’IA
- Le sport, au fond, c’est un ensemble de règles. L’essentiel, c’est d’empêcher la triche
  Au contraire, une bonne IA pourrait réduire les tâches répétitives et ouvrir la voie à de nouveaux genres de jeux où les joueurs se concentrent sur les décisions stratégiques
- Aux échecs aussi, l’IA est déjà plus forte que les humains, et pourtant le plaisir existe toujours
  De la même façon, même avec une opposition humains contre IA, le fun pourrait rester intact
- Au début, ce sera un sujet d’actualité quand l’IA battra des humains, mais l’effet de nouveauté finira vite par disparaître
  Au final, l’usage de l’IA sera probablement perçu socialement comme une aide, au même titre que les cheats ou les scripts
- Autrefois, dans World of Warcraft, un bot druide entraîné par renforcement battait tous les humains en 2v2
  Dans un FPS, ce serait trop visible, mais dans des jeux au tour par tour ou des MMORPG où la coordination œil-main est moins importante, la différence serait plus difficile à repérer
  En réalité, des cheats plus subtils comme l’ESP sont une menace plus sérieuse pour l’e-sport
- Au final, les MMO risquent de se dégrader comme le poker en ligne
Moi, je veux des jeux plus intelligents
Quelque chose qui dépasse le début des jeux de survie où l’on ramasse bois et pierres, puis bascule vers l’automatisation à mesure que la technologie progresse
Les PNJ mineraient les ressources, prépareraient la nourriture et les défenses afin d’atteindre des objectifs plus ambitieux
Le joueur deviendrait une sorte de « grand patron » qui profite du fantasme de donner des ordres à des personnages intelligents
- Il existe un framework open source appelé Mindcraft
  C’est un système de bots intelligents qui utilise des LLM comme GPT-4 ou Gemini pour récolter des ressources, construire et coopérer dans Minecraft
- Je me demande si SIMA 2 pourrait apprendre toute seule à créer une ferme à fer ou un hall d’échange dans Minecraft
  Pourrait-elle comprendre que le fer est rare et en faire une motivation ?
  Si l’objectif est simplement de « finir le jeu », elle pourrait aussi chercher à tuer directement l’Ender Dragon
- Au fond, c’est un peu comme jouer à The Sims
  Sauf qu’au lieu de « décorer la maison », ce serait une version « extraire du minerai pour une arme légendaire »
J’aimerais que Google revienne à sa vieille culture de recherche ouverte
En ce moment, ils semblent mener leurs expériences en privé puis ne publier que des communiqués
J’aimerais qu’ils publient en open source et ne ferment que lorsque c’est vraiment nécessaire
Leurs recherches sont suffisamment impressionnantes pour donner envie d’y participer directement
- Je suis totalement d’accord. J’aimerais pouvoir l’essayer moi-même
- Dreamer v3 a été publié ; est-ce que la v4 arrive bientôt ?
C’est un projet de recherche, mais je me demande quelle est l’étape suivante
Peut-on transférer vers des robots réels ce qui a été appris dans des mondes virtuels ?
Ou faut-il s’entraîner séparément dans le monde réel ?
Et pour surmonter l’écart avec la physique du réel, ne faudrait-il pas des mondes de simulation encore plus sophistiqués ?
- L’objectif est d’appliquer au monde réel ce mode d’apprentissage acquis dans les mondes virtuels
  Si l’on obtient des world models de haute précision, on pourra entraîner les robots à l’intérieur et généraliser ensuite au réel
  Pour l’instant, on pose surtout les bases
- En robotique, on appelle cela le problème du sim2real. Ça vaut le coup d’y jeter un œil
Dans la démo vidéo à 0:52, on voit une erreur grammaticale, ce qui donne l’impression que les annotations ont été retouchées après coup
Google aurait-il encore enjolivé les choses pour le marketing ?
- Ils ont probablement transformé la réplique du jeu « Va vers la maison qui ressemble à une tomate bien mûre ! »
  en une consigne à l’impératif du type « Aller à la maison tomate »
  Cela dit, l’axe Y du graphique paraît bien plus raisonnable que dans d’autres benchmarks récents
- On voit effectivement juste avant cette scène que l’utilisateur tape « ripe tomato »
  C’est omis dans le résumé, mais l’expression est bien présente dans le contexte
J’aimerais que ce genre de technologie fonctionne en local comme agent d’assistance pour les jeux
Si elle pouvait prendre en charge les tâches répétitives, je pourrais probablement profiter plus longtemps des jeux
Même si ce n’est pas parfait, ce serait peut-être justement ce qui la rend amusante
- Au contraire, si une IA joue à ma place, je pourrai utiliser ce temps pour faire de vraies corvées comme le ménage ou la lessive
  On peut désormais lui confier aussi les tâches pénibles comme les poèmes, les tableaux ou les jeux
- Si un jeu est assez ennuyeux pour qu’on le fasse à sa place, c’est bizarre. L’essence du jeu, c’est d’y jouer soi-même
- Comme « Skeeball → Virtual Skeeball → Virtual Virtual Skeeball »,
  si l’IA le fait à ta place, on finit par perdre tout intérêt. Les jeux sont conçus comme un équilibre entre effort et récompense
- S’il faut déléguer les tâches répétitives, c’est que le game design est mauvais
- Moi aussi, j’ai déjà écrit un script d’auto-minage avec AutoHotkey dans Terraria
  Il cassait les blocs selon les coordonnées, mais si je ne regardais pas l’écran, il tombait parfois dans un trou rempli de monstres. C’était vraiment un « bot aveugle »

Google SIMA 2 - un agent qui joue, raisonne et apprend avec vous dans des mondes virtuels 3D

Présentation de SIMA 2

Reasoning (capacité de raisonnement)

Generalization (performances de généralisation)

Self-Improvement (auto-amélioration)

Future Directions (orientations futures)

Responsible Development (développement responsable)

À lire aussi

1 commentaires

Avis Hacker News