Gemini Robotics-ER 1.6 : raisonnement incarné amélioré
(deepmind.google)- Un modèle de raisonnement incarné amélioré (embodied reasoning) conçu pour permettre aux robots de comprendre avec précision leur environnement physique et d’agir de manière autonome, avec un net renforcement du raisonnement spatial et de la planification des tâches
- Il assure des fonctions de jugement de haut niveau pour les robots, comme la compréhension visuelle et spatiale, la détection de réussite et le raisonnement multi-vues, et traite directement des tâches complexes via Google Search ou des appels de fonctions externes
- La fonction Pointing permet d’exécuter diverses logiques spatiales, comme la détection, la comparaison et l’estimation de trajectoires d’objets, tout en réduisant les hallucinations par rapport à la version précédente et en améliorant la précision de perception
- Une nouvelle fonction de lecture d’instruments (Instrument Reading) permet au robot Spot de Boston Dynamics d’interpréter avec précision thermomètres, manomètres et autres instruments dans des installations industrielles
- Le modèle se distingue aussi par une meilleure conformité aux politiques de sécurité et par sa collaboration avec la communauté pour accroître l’autonomie et la fiabilité en conditions réelles
Présentation de Gemini Robotics-ER 1.6
- Gemini Robotics-ER 1.6 est un modèle de raisonnement incarné amélioré conçu pour permettre aux robots de comprendre avec précision leur environnement physique et d’agir de manière autonome
- Il renforce des capacités de raisonnement de haut niveau essentielles en robotique, comme le raisonnement spatial, la compréhension multi-vues, la planification des tâches et la détection de réussite
- Il peut appeler directement différents outils pour exécuter des tâches, comme Google Search, des modèles Vision-Language-Action (VLA) et des fonctions externes personnalisées
- Il affiche des gains de performance marqués en raisonnement spatial et physique (pointing, comptage, détection de réussite) par rapport à Gemini Robotics-ER 1.5 et Gemini 3.0 Flash
- Il ajoute une nouvelle fonction de lecture d’instruments (instrument reading) développée en collaboration avec Boston Dynamics
Principales fonctions et améliorations de performance
- Gemini Robotics-ER 1.6 est proposé aux développeurs via la Gemini API et Google AI Studio
- Des exemples Colab sur GitHub montrent comment configurer le modèle et construire des prompts pour des tâches de raisonnement incarné
- Le modèle joue le rôle d’un moteur de raisonnement de haut niveau chargé des jugements robotiques, comme la compréhension visuelle et spatiale, la planification des tâches et la détection de réussite
- Il exploite la vision agentique (agentic vision) pour combiner raisonnement visuel et exécution de code, et atteindre une grande précision même dans des environnements physiques complexes
Pointing : base du raisonnement spatial
- Le pointing est une fonction clé du modèle de raisonnement incarné, utilisée pour diverses logiques spatiales comme la détection, la comparaison et l’estimation de trajectoires d’objets
- Raisonnement spatial : détection précise des objets et comptage
- Logique relationnelle : identification du plus petit élément d’un ensemble, définition de relations comme « déplacer X à l’emplacement Y »
- Raisonnement moteur : cartographie de trajectoires et identification du point de préhension optimal
- Respect des contraintes : traitement de commandes complexes comme « désigne tous les objets assez petits pour entrer dans la tasse bleue »
- Gemini Robotics-ER 1.6 utilise le pointing comme étape intermédiaire pour résoudre progressivement des tâches complexes
- Exemple : compter le nombre d’objets dans une image, identifier des points clés pour un calcul mathématique
- D’après les résultats expérimentaux, la version 1.6 identifie avec précision de multiples objets comme des marteaux, ciseaux, pinceaux et pinces, et ne désigne pas des objets inexistants (ex. : brouette, perceuse)
- La version 1.5 reconnaissait mal certains objets ou hallucinait des objets inexistants
- 3.0 Flash affiche des performances proches, mais avec une précision plus faible pour la reconnaissance des pinces
Détection de réussite (Success Detection) : moteur central de l’autonomie
- La capacité d’un robot à reconnaître le moment où une tâche est terminée est un élément clé de l’autonomie
- Gemini Robotics-ER 1.6 améliore le raisonnement multi-vues (multi-view reasoning) afin de comprendre les relations entre plusieurs flux de caméras
- Il permet une interprétation cohérente d’une scène même dans des environnements complexes, avec occlusion, problèmes d’éclairage ou consignes ambiguës
- Exemple : déterminer avec précision, à partir de vidéos prises sous plusieurs angles, le moment où la tâche « mettre le stylo bleu dans le porte-stylo noir » est accomplie
Lecture d’instruments (Instrument Reading) : raisonnement visuel en environnement réel
- Fonction d’interprétation des thermomètres, manomètres, sight glasses et autres instruments dans des installations industrielles
- Le robot Spot de Boston Dynamics photographie les instruments sur site, puis Gemini Robotics-ER 1.6 les interprète
- Prend en charge la lecture de divers types d’instruments, comme les manomètres circulaires, les indicateurs de niveau verticaux et les instruments numériques
- Le processus de lecture interprète de manière intégrée des éléments visuels complexes comme la hauteur du liquide, les graduations, le texte des unités et les aiguilles multiples
- Dans le cas des sight glasses, il estime le niveau du liquide en tenant compte de la distorsion de la caméra
- Grâce à la vision agentique, il exécute par étapes zoom, pointing et exécution de code pour atteindre une lecture de précision au niveau sub-tick
- Marco da Silva, vice-président de Boston Dynamics, a indiqué que cette fonction permet à Spot de reconnaître et traiter de manière totalement autonome des problèmes du monde réel
Améliorations en matière de sécurité
- Gemini Robotics-ER 1.6 est présenté comme le modèle de robotique le plus sûr
- Son taux de conformité aux politiques de sécurité de Gemini est supérieur à celui de la génération précédente
- Renforcement du respect des contraintes de sécurité physique
- Exemple : des contraintes comme « ne pas manipuler de liquides » ou « ne pas soulever d’objets de plus de 20 kg » sont prises en compte dès l’étape de sortie spatiale (pointing)
- Dans des tests de reconnaissance de scénarios de sécurité en texte et en vidéo fondés sur des rapports réels de blessures
- amélioration de +6 % en texte et +10 % en vidéo par rapport à Gemini 3.0 Flash
- Dans l’évaluation Safety Instruction Following, forte progression par rapport à la version 1.5, avec également une meilleure précision du pointing
Collaboration avec la communauté robotique
- Google DeepMind cherche à collaborer avec la communauté robotique pour continuer à améliorer les capacités de Gemini Robotics-ER
- En cas de limites dans un domaine applicatif donné, l’entreprise demande de partager les cas d’échec en soumettant 10 à 50 images annotées
- L’objectif est de renforcer la robustesse des capacités de raisonnement dans les futures versions
- Gemini Robotics-ER 1.6 est disponible dès maintenant dans Google AI Studio
1 commentaires
Avis Hacker News
On a l’impression qu’on se rapproche progressivement d’un niveau où l’on imite le comportement humain ou animal
Si on pouvait superposer aux modèles génératifs un schéma d’orchestration qui fonctionne comme un cerveau, alors avec une vitesse d’inférence suffisante, ils pourraient probablement faire bien davantage
Par exemple, générer et exécuter un script Python pour lire une jauge est lent aujourd’hui, mais si c’était 100 à 1000 fois plus rapide, le modèle pourrait prendre des photos, simuler l’avenir et créer une boucle où il prend lui-même ses décisions
Le modèle utilisé est toutefois un ancien Llama, donc la qualité reste faible, mais si c’est extensible, ce serait vraiment remarquable
Au final, cela semble n’être qu’une question de temps
L’humain est le produit évolutif de la chasse et de la fabrication d’outils, alors que l’automatisation industrielle réelle a progressé non pas sous une forme humanoïde, mais sous une forme pratique à la R2D2
Les robots domestiques seront sans doute plus proches de cela
On imagine préparer un terrain, des jambes et bras robotiques, des batteries, un GPU et des panneaux solaires,
puis donner comme prompt : « gère ce terrain et cultive des légumes »
Le satoyama au Japon, la rotation des cultures en Afrique ou l’agriculture en courbes de niveau en Russie montrent que chaque région avait ses propres méthodes
L’idée mise en avant est qu’au final, la manière de prendre soin de la terre dépend de la spécificité locale et des objectifs
Google et Boston Dynamics développent actuellement un modèle ensemble,
et Hyundai, qui a racheté Boston Dynamics, cherche désormais à déployer des robots dans l’automatisation des usines
Quelqu’un s’est dit qu’un logiciel capable de photographier une jauge de pression avec une caméra et d’enregistrer les données sous forme de graphique serait utile
Il se demande si cela existe pour le grand public
On doute que faire lire des instruments analogiques par un robot soit la bonne approche
Il ne vaudrait pas mieux les remplacer simplement par des capteurs numériques
La comparaison simple est difficile, et il est facile de sous-estimer la complexité de ce type de changement
Le principe « si ce n’est pas cassé, ne le réparez pas » s’applique ici
Cela semblerait parfait pour être relié à mon système « LLMs can control robots over MCP »
Les LLM écrivent bien le code, donc l’idée est d’exploiter cette capacité
Des tests sont prévus avec un grand robot récemment acheté
Post associé
L’architecture combinait un modèle de contrôle robotique et un LLM via une attention layer
C’est surtout la question de la latence qui intrigue
Pour certaines tâches de perception, c’est meilleur que les modèles de vision frontier, mais pour la robotique, les performances en Hz comptent
On suppose que ce sera probablement lent
Le modèle « réfléchit » quelques secondes puis donne un résultat
Pour des tâches comme compter les pattes d’un animal ou lire une horloge analogique, le rapport efficacité/performance était très élevé
L’expression « le modèle robotique le plus sûr » est intéressante
Gemini Robotics-ER 1.6 respecte mieux les politiques de sécurité que la génération précédente,
mais il n’est toujours pas entièrement prêt pour un usage commercial, et viser la sécurité comme objectif semble être une approche réaliste
Il est possible que l’IA pour robots dispose en interne de modèles du niveau GPT-2 ou GPT-3,
mais comme les échecs dans l’environnement quotidien sont critiques, il serait difficile de les rendre publics
Par exemple, casser ne serait-ce qu’une seule assiette en sortant le lave-vaisselle serait perçu comme un gros problème
C’était un bon film à revoir maintenant
Les premiers Roomba faisaient souvent n’importe quoi eux aussi, mais le marché les a acceptés, et ils ont fini par s’améliorer
Même sans perfection, il est important d’entrer d’abord sur le marché tout en collectant des données
Aucun système n’est parfait
Si un robot fait mieux que ça, ce serait déjà une amélioration
Prétendre disposer déjà d’un modèle de niveau GPT ne semble pas honnête
Je me demande s’il faut continuer à utiliser le modèle actuel
jusqu’à ce que Google publie officiellement Gemini Flash 3.1