- SIMA 2, qui intègre le modèle Gemini, évolue au-delà de la simple exécution de commandes en langage naturel pour devenir un agent IA pour environnements virtuels 3D capable de comprendre l’objectif de l’utilisateur, de raisonner par lui-même et d’interagir
- Contrairement à la version précédente, qui exécutait plus de 600 actions basées sur le langage, il dispose désormais de capacités de raisonnement, dialogue et auto-amélioration, lui permettant d’adopter des comportements orientés objectif même dans de nouveaux jeux
- Il affiche de fortes performances de généralisation dans des jeux sur lesquels il n’a pas été entraîné, comme MineDojo et ASKA, en atteignant des taux de réussite sur les tâches proches de ceux des joueurs humains
- Grâce à une boucle d’auto-amélioration, il accumule lui-même de l’expérience et améliore ses performances sans données humaines
- Ces avancées posent les bases d’applications futures en intelligence incarnée générale (embodied intelligence) et en robotique
Présentation de SIMA 2
- SIMA 2 est un agent IA basé sur Gemini développé par Google DeepMind, conçu pour jouer et apprendre aux côtés des humains dans des environnements virtuels 3D
- La première version de SIMA se concentrait sur la traduction de commandes en langage naturel en actions, tandis que SIMA 2 ajoute des capacités de déduction d’objectifs, dialogue et auto-amélioration
- Ce modèle illustre des avancées vers l’AGI (intelligence artificielle générale) et revêt une importance particulière pour la robotique et la recherche sur l’IA incarnée
Reasoning (capacité de raisonnement)
- SIMA 1 exécutait plus de 600 commandes comme « tourne à gauche » ou « monte à l’échelle », mais il fonctionnait en observant l’écran et en manipulant l’interface sans accès aux mécaniques internes du jeu
- SIMA 2 embarque le modèle Gemini, ce qui lui permet d’aller au-delà de l’exécution de commandes simples pour comprendre les objectifs et raisonner de manière logique
- Les données d’entraînement combinent des vidéos de démonstration humaines et des labels générés par Gemini, et l’agent peut expliquer son propre plan d’action ainsi que ses étapes
- Lors des tests, les utilisateurs ont perçu l’interaction avec SIMA 2 comme une collaboration plutôt qu’une suite d’ordres, avec entraînement et évaluation menés dans divers environnements de jeu
- Grâce au moteur de raisonnement de Gemini, il devient possible de mettre en œuvre une IA incarnée intégrant perception, compréhension et action dans des environnements 3D complexes
Generalization (performances de généralisation)
- L’intégration de Gemini améliore la compréhension et l’exécution de commandes complexes et nuancées
- Même dans des jeux non vus à l’entraînement (par exemple ASKA et MineDojo), SIMA 2 obtient de forts taux de réussite et atteint des performances sur les tâches proches du niveau humain
- Il montre une capacité de transfert conceptuel, par exemple en transférant la notion de « mining » vers celle de « harvesting » dans d’autres jeux
- Il peut comprendre des commandes multilingues et des emojis, ainsi que traiter des entrées multimodales (comme des dessins)
- Associé à Genie 3, il conserve son sens de l’orientation et un comportement orienté objectif même dans des mondes virtuels nouvellement générés, démontrant une forte capacité d’adaptation
Self-Improvement (auto-amélioration)
- SIMA 2 améliore ses performances sans intervention humaine grâce à une boucle d’apprentissage auto-dirigée
- Gemini fournit les tâches initiales et une estimation des récompenses
- Sur cette base, SIMA 2 construit sa propre banque de données d’expérience et l’utilise pour les apprentissages suivants
- Il réapprend aussi de manière autonome à partir des tâches échouées et peut apprendre dans de nouveaux jeux sans démonstrations humaines
- Dans l’environnement Genie 3 également, il répète cette auto-amélioration et montre des gains de performance grâce à un apprentissage multi-générationnel
- Cette architecture ouvre la voie à une IA incarnée en auto-apprentissage continu
Future Directions (orientations futures)
- SIMA 2 sert de terrain d’expérimentation pour une intelligence générale capable de raisonnement complexe et d’apprentissage auto-dirigé dans divers environnements de jeu
- Parmi les limites relevées figurent les tâches de longue durée, le raisonnement en plusieurs étapes, les limites de mémoire courte et le traitement de la complexité visuelle
- Néanmoins, en combinant des données issues de multiples mondes et les capacités de raisonnement de Gemini, il est validé comme un agent généraliste intégrant des fonctions auparavant réparties entre plusieurs systèmes spécialisés
- Les capacités acquises en exploration, usage d’outils et collaboration constituent une base essentielle pour une future extension vers l’IA robotique physique
Responsible Development (développement responsable)
- SIMA 2 vise une interaction centrée sur l’humain et ses technologies clés, y compris l’auto-amélioration, sont développées de manière responsable
- Google DeepMind a mené dès le départ des examens de sécurité en collaboration avec son équipe Responsible Development & Innovation
- Le système est actuellement proposé sous la forme d’une research preview limitée, avec un accès anticipé réservé à une partie du monde académique et à certains développeurs de jeux
- Cette approche vise à recueillir des retours et des évaluations de risques, avec pour objectif un progrès technologique responsable à l’avenir
1 commentaires
Avis Hacker News
Voir une IA jouer à des jeux vidéo, c’est sympa, mais ce qui est vraiment étonnant avec SIMA 2, c’est qu’elle contrôle directement la souris et lit l’écran à plus de 30 images par seconde
Les agents actuels capables d’utiliser un ordinateur sont bien trop lents ; là, on est clairement à un autre niveau. Je me demande à quoi ressemble l’architecture interne
Quelque chose qui exécute à l’écran des commandes comme « Ouvre Chrome », « Va sur xyz.com », « Clique sur connexion »
L’écart entre le contrôle haut niveau et le contrôle bas niveau des robots se réduit de plus en plus
On entraîne des robots à accomplir certaines tâches dans des contextes précis à partir de milliers d’heures de données d’apprentissage spécialisées
On les pilote avec des commandes de bas niveau comme « vider le lave-vaisselle », « imiter mes gestes », « tirer sur une ficelle »
Si cette approche est combinée à un agent de contrôle haut niveau comme SIMA 2, on pourrait obtenir des robots réellement utiles dans le monde réel
Je me demande pourquoi ce type d’entrée est considéré comme bas niveau, et comment cela interagit avec un agent de contrôle haut niveau comme SIMA 2
Est-ce que SIMA 2 traduit des consignes comme « vider le lave-vaisselle » en véritables frappes clavier ou manipulations d’interface ?
Ça me fait penser à la nouvelle de Ted Chiang « The Lifecycle of Software Objects »
L’étape suivante sera peut-être de mettre cette IA de digient dans le robot Figure 03
D’ailleurs, dans l’expérience Butter Bench, un LLM généraliste contrôlait un aspirateur robot,
et lorsqu’il est tombé en panne de batterie, il a laissé des logs émotionnels évoquant une « anxiété de retour à la base ». C’était drôle, mais aussi intéressant
L’idée que SIMA 2 puisse accomplir des tâches de plus en plus complexes grâce à un feedback basé sur Gemini est intéressante
Le fait qu’il réutilise ses propres données d’expérience pour entraîner la version suivante donne l’impression d’une architecture auto-améliorante
Est-ce que SIMA est une couche agentique qui fonctionne au-dessus de Gemini ?
Je me demande si ce genre de technologie pourrait finir par ruiner l’e-sport
Si une IA réagit plus vite qu’un humain et ne se fatigue jamais, les MMO ou les FPS pourraient finir remplis d’IA
Au contraire, une bonne IA pourrait réduire les tâches répétitives et ouvrir la voie à de nouveaux genres de jeux où les joueurs se concentrent sur les décisions stratégiques
De la même façon, même avec une opposition humains contre IA, le fun pourrait rester intact
Au final, l’usage de l’IA sera probablement perçu socialement comme une aide, au même titre que les cheats ou les scripts
Dans un FPS, ce serait trop visible, mais dans des jeux au tour par tour ou des MMORPG où la coordination œil-main est moins importante, la différence serait plus difficile à repérer
En réalité, des cheats plus subtils comme l’ESP sont une menace plus sérieuse pour l’e-sport
Moi, je veux des jeux plus intelligents
Quelque chose qui dépasse le début des jeux de survie où l’on ramasse bois et pierres, puis bascule vers l’automatisation à mesure que la technologie progresse
Les PNJ mineraient les ressources, prépareraient la nourriture et les défenses afin d’atteindre des objectifs plus ambitieux
Le joueur deviendrait une sorte de « grand patron » qui profite du fantasme de donner des ordres à des personnages intelligents
C’est un système de bots intelligents qui utilise des LLM comme GPT-4 ou Gemini pour récolter des ressources, construire et coopérer dans Minecraft
Pourrait-elle comprendre que le fer est rare et en faire une motivation ?
Si l’objectif est simplement de « finir le jeu », elle pourrait aussi chercher à tuer directement l’Ender Dragon
Sauf qu’au lieu de « décorer la maison », ce serait une version « extraire du minerai pour une arme légendaire »
J’aimerais que Google revienne à sa vieille culture de recherche ouverte
En ce moment, ils semblent mener leurs expériences en privé puis ne publier que des communiqués
J’aimerais qu’ils publient en open source et ne ferment que lorsque c’est vraiment nécessaire
Leurs recherches sont suffisamment impressionnantes pour donner envie d’y participer directement
C’est un projet de recherche, mais je me demande quelle est l’étape suivante
Peut-on transférer vers des robots réels ce qui a été appris dans des mondes virtuels ?
Ou faut-il s’entraîner séparément dans le monde réel ?
Et pour surmonter l’écart avec la physique du réel, ne faudrait-il pas des mondes de simulation encore plus sophistiqués ?
Si l’on obtient des world models de haute précision, on pourra entraîner les robots à l’intérieur et généraliser ensuite au réel
Pour l’instant, on pose surtout les bases
Dans la démo vidéo à 0:52, on voit une erreur grammaticale, ce qui donne l’impression que les annotations ont été retouchées après coup
Google aurait-il encore enjolivé les choses pour le marketing ?
en une consigne à l’impératif du type « Aller à la maison tomate »
Cela dit, l’axe Y du graphique paraît bien plus raisonnable que dans d’autres benchmarks récents
C’est omis dans le résumé, mais l’expression est bien présente dans le contexte
J’aimerais que ce genre de technologie fonctionne en local comme agent d’assistance pour les jeux
Si elle pouvait prendre en charge les tâches répétitives, je pourrais probablement profiter plus longtemps des jeux
Même si ce n’est pas parfait, ce serait peut-être justement ce qui la rend amusante
On peut désormais lui confier aussi les tâches pénibles comme les poèmes, les tableaux ou les jeux
si l’IA le fait à ta place, on finit par perdre tout intérêt. Les jeux sont conçus comme un équilibre entre effort et récompense
Il cassait les blocs selon les coordonnées, mais si je ne regardais pas l’écran, il tombait parfois dans un trou rempli de monstres. C’était vraiment un « bot aveugle »