Gemini Robotics-ER 1.6 : raisonnement incarné amélioré

(deepmind.google)

1 points par GN⁺ 16 일 전 | 1 commentaires | Partager sur WhatsApp

Un modèle de raisonnement incarné amélioré (embodied reasoning) conçu pour permettre aux robots de comprendre avec précision leur environnement physique et d’agir de manière autonome, avec un net renforcement du raisonnement spatial et de la planification des tâches
Il assure des fonctions de jugement de haut niveau pour les robots, comme la compréhension visuelle et spatiale, la détection de réussite et le raisonnement multi-vues, et traite directement des tâches complexes via Google Search ou des appels de fonctions externes
La fonction Pointing permet d’exécuter diverses logiques spatiales, comme la détection, la comparaison et l’estimation de trajectoires d’objets, tout en réduisant les hallucinations par rapport à la version précédente et en améliorant la précision de perception
Une nouvelle fonction de lecture d’instruments (Instrument Reading) permet au robot Spot de Boston Dynamics d’interpréter avec précision thermomètres, manomètres et autres instruments dans des installations industrielles
Le modèle se distingue aussi par une meilleure conformité aux politiques de sécurité et par sa collaboration avec la communauté pour accroître l’autonomie et la fiabilité en conditions réelles

Présentation de Gemini Robotics-ER 1.6

Gemini Robotics-ER 1.6 est un modèle de raisonnement incarné amélioré conçu pour permettre aux robots de comprendre avec précision leur environnement physique et d’agir de manière autonome
Il renforce des capacités de raisonnement de haut niveau essentielles en robotique, comme le raisonnement spatial, la compréhension multi-vues, la planification des tâches et la détection de réussite
Il peut appeler directement différents outils pour exécuter des tâches, comme Google Search, des modèles Vision-Language-Action (VLA) et des fonctions externes personnalisées
Il affiche des gains de performance marqués en raisonnement spatial et physique (pointing, comptage, détection de réussite) par rapport à Gemini Robotics-ER 1.5 et Gemini 3.0 Flash
Il ajoute une nouvelle fonction de lecture d’instruments (instrument reading) développée en collaboration avec Boston Dynamics

Principales fonctions et améliorations de performance

Gemini Robotics-ER 1.6 est proposé aux développeurs via la Gemini API et Google AI Studio
- Des exemples Colab sur GitHub montrent comment configurer le modèle et construire des prompts pour des tâches de raisonnement incarné
Le modèle joue le rôle d’un moteur de raisonnement de haut niveau chargé des jugements robotiques, comme la compréhension visuelle et spatiale, la planification des tâches et la détection de réussite
Il exploite la vision agentique (agentic vision) pour combiner raisonnement visuel et exécution de code, et atteindre une grande précision même dans des environnements physiques complexes

Pointing : base du raisonnement spatial

Le pointing est une fonction clé du modèle de raisonnement incarné, utilisée pour diverses logiques spatiales comme la détection, la comparaison et l’estimation de trajectoires d’objets
- Raisonnement spatial : détection précise des objets et comptage
- Logique relationnelle : identification du plus petit élément d’un ensemble, définition de relations comme « déplacer X à l’emplacement Y »
- Raisonnement moteur : cartographie de trajectoires et identification du point de préhension optimal
- Respect des contraintes : traitement de commandes complexes comme « désigne tous les objets assez petits pour entrer dans la tasse bleue »
Gemini Robotics-ER 1.6 utilise le pointing comme étape intermédiaire pour résoudre progressivement des tâches complexes
- Exemple : compter le nombre d’objets dans une image, identifier des points clés pour un calcul mathématique
D’après les résultats expérimentaux, la version 1.6 identifie avec précision de multiples objets comme des marteaux, ciseaux, pinceaux et pinces, et ne désigne pas des objets inexistants (ex. : brouette, perceuse)
- La version 1.5 reconnaissait mal certains objets ou hallucinait des objets inexistants
- 3.0 Flash affiche des performances proches, mais avec une précision plus faible pour la reconnaissance des pinces

Détection de réussite (Success Detection) : moteur central de l’autonomie

La capacité d’un robot à reconnaître le moment où une tâche est terminée est un élément clé de l’autonomie
Gemini Robotics-ER 1.6 améliore le raisonnement multi-vues (multi-view reasoning) afin de comprendre les relations entre plusieurs flux de caméras
- Il permet une interprétation cohérente d’une scène même dans des environnements complexes, avec occlusion, problèmes d’éclairage ou consignes ambiguës
- Exemple : déterminer avec précision, à partir de vidéos prises sous plusieurs angles, le moment où la tâche « mettre le stylo bleu dans le porte-stylo noir » est accomplie

Lecture d’instruments (Instrument Reading) : raisonnement visuel en environnement réel

Fonction d’interprétation des thermomètres, manomètres, sight glasses et autres instruments dans des installations industrielles
- Le robot Spot de Boston Dynamics photographie les instruments sur site, puis Gemini Robotics-ER 1.6 les interprète
Prend en charge la lecture de divers types d’instruments, comme les manomètres circulaires, les indicateurs de niveau verticaux et les instruments numériques
Le processus de lecture interprète de manière intégrée des éléments visuels complexes comme la hauteur du liquide, les graduations, le texte des unités et les aiguilles multiples
- Dans le cas des sight glasses, il estime le niveau du liquide en tenant compte de la distorsion de la caméra
Grâce à la vision agentique, il exécute par étapes zoom, pointing et exécution de code pour atteindre une lecture de précision au niveau sub-tick
Marco da Silva, vice-président de Boston Dynamics, a indiqué que cette fonction permet à Spot de reconnaître et traiter de manière totalement autonome des problèmes du monde réel

Améliorations en matière de sécurité

Gemini Robotics-ER 1.6 est présenté comme le modèle de robotique le plus sûr
- Son taux de conformité aux politiques de sécurité de Gemini est supérieur à celui de la génération précédente
Renforcement du respect des contraintes de sécurité physique
- Exemple : des contraintes comme « ne pas manipuler de liquides » ou « ne pas soulever d’objets de plus de 20 kg » sont prises en compte dès l’étape de sortie spatiale (pointing)
Dans des tests de reconnaissance de scénarios de sécurité en texte et en vidéo fondés sur des rapports réels de blessures
- amélioration de +6 % en texte et +10 % en vidéo par rapport à Gemini 3.0 Flash
Dans l’évaluation Safety Instruction Following, forte progression par rapport à la version 1.5, avec également une meilleure précision du pointing

Collaboration avec la communauté robotique

Google DeepMind cherche à collaborer avec la communauté robotique pour continuer à améliorer les capacités de Gemini Robotics-ER
- En cas de limites dans un domaine applicatif donné, l’entreprise demande de partager les cas d’échec en soumettant 10 à 50 images annotées
- L’objectif est de renforcer la robustesse des capacités de raisonnement dans les futures versions
Gemini Robotics-ER 1.6 est disponible dès maintenant dans Google AI Studio

1 commentaires

GN⁺ 16 일 전

Avis Hacker News

On a l’impression qu’on se rapproche progressivement d’un niveau où l’on imite le comportement humain ou animal
Si on pouvait superposer aux modèles génératifs un schéma d’orchestration qui fonctionne comme un cerveau, alors avec une vitesse d’inférence suffisante, ils pourraient probablement faire bien davantage
Par exemple, générer et exécuter un script Python pour lire une jauge est lent aujourd’hui, mais si c’était 100 à 1000 fois plus rapide, le modèle pourrait prendre des photos, simuler l’avenir et créer une boucle où il prend lui-même ses décisions
- Taalas expérimente l’intégration directe du modèle sur la puce afin d’obtenir une inférence ultra-rapide
  Le modèle utilisé est toutefois un ancien Llama, donc la qualité reste faible, mais si c’est extensible, ce serait vraiment remarquable
- Taalas a montré qu’il était possible de convertir des LLM en ASIC afin de générer rapidement plus de 10�a0000 tokens
  Au final, cela semble n’être qu’une question de temps
- On peut se demander si imiter le comportement humain est vraiment un objectif utile
  L’humain est le produit évolutif de la chasse et de la fabrication d’outils, alors que l’automatisation industrielle réelle a progressé non pas sous une forme humanoïde, mais sous une forme pratique à la R2D2
  Les robots domestiques seront sans doute plus proches de cela
- Une blague sur l’idée que si on met une « image slop » dans une « machine à slop », on obtient du « slop² »
On imagine préparer un terrain, des jambes et bras robotiques, des batteries, un GPU et des panneaux solaires,
puis donner comme prompt : « gère ce terrain et cultive des légumes »
- Le résultat reste inconnu, mais le prompt traditionnel était : « croissez et multipliez »
- « Gérer ce terrain » pourrait aussi signifier la gestion de petits feux pratiquée pendant des millénaires par les peuples autochtones de Californie
  Le satoyama au Japon, la rotation des cultures en Afrique ou l’agriculture en courbes de niveau en Russie montrent que chaque région avait ses propres méthodes
  L’idée mise en avant est qu’au final, la manière de prendre soin de la terre dépend de la spécificité locale et des objectifs
- Curiosité sur l’état réel d’expériences comme Proof of Corn
- Une blague : « C’est fini ! Toute la planète est devenue un potager »
Google et Boston Dynamics développent actuellement un modèle ensemble,
et Hyundai, qui a racheté Boston Dynamics, cherche désormais à déployer des robots dans l’automatisation des usines
Quelqu’un s’est dit qu’un logiciel capable de photographier une jauge de pression avec une caméra et d’enregistrer les données sous forme de graphique serait utile
Il se demande si cela existe pour le grand public
- En le demandant à Claude, il pourrait le créer d’un coup, y compris avec un tableau de bord Home Assistant
- Curiosité sur la réaction des agents publics si des caméras étaient installées sur les compteurs autour de la maison
- Il suffit de regarder du côté d’OpenCV
- C’est aussi possible avec Frigate ou Openclaw, même si le premier est excessif et le second un peu moins
On doute que faire lire des instruments analogiques par un robot soit la bonne approche
Il ne vaudrait pas mieux les remplacer simplement par des capteurs numériques
- Mais en pratique, cela implique des validations d’ingénierie, un arrêt d’usine, du câblage, l’intégration à la SCADA, etc. : les coûts et procédures sont énormes
  La comparaison simple est difficile, et il est facile de sous-estimer la complexité de ce type de changement
- Au lieu d’arrêter les équipements et de les remplacer, installer une caméra IoT peut être bien moins cher et plus fiable
  Le principe « si ce n’est pas cassé, ne le réparez pas » s’applique ici
Cela semblerait parfait pour être relié à mon système « LLMs can control robots over MCP »
Les LLM écrivent bien le code, donc l’idée est d’exploiter cette capacité
Des tests sont prévus avec un grand robot récemment acheté
Post associé
- Cela rappelle une vidéo sur Google PaLM-E vue il y a environ deux semaines
  L’architecture combinait un modèle de contrôle robotique et un LLM via une attention layer
C’est surtout la question de la latence qui intrigue
Pour certaines tâches de perception, c’est meilleur que les modèles de vision frontier, mais pour la robotique, les performances en Hz comptent
On suppose que ce sera probablement lent
- Après test dans AI Studio, les performances de perception sont au niveau de 3.1 Pro, mais nettement plus rapides
  Le modèle « réfléchit » quelques secondes puis donne un résultat
  Pour des tâches comme compter les pattes d’un animal ou lire une horloge analogique, le rapport efficacité/performance était très élevé
L’expression « le modèle robotique le plus sûr » est intéressante
Gemini Robotics-ER 1.6 respecte mieux les politiques de sécurité que la génération précédente,
mais il n’est toujours pas entièrement prêt pour un usage commercial, et viser la sécurité comme objectif semble être une approche réaliste
Il est possible que l’IA pour robots dispose en interne de modèles du niveau GPT-2 ou GPT-3,
mais comme les échecs dans l’environnement quotidien sont critiques, il serait difficile de les rendre publics
Par exemple, casser ne serait-ce qu’une seule assiette en sortant le lave-vaisselle serait perçu comme un gros problème
- Quelqu’un a regardé Bicentennial Man (1999) ce week-end, et la scène du lave-vaisselle l’a marqué
  C’était un bon film à revoir maintenant
- Casser une assiette n’est peut-être pas un problème si grave
  Les premiers Roomba faisaient souvent n’importe quoi eux aussi, mais le marché les a acceptés, et ils ont fini par s’améliorer
  Même sans perfection, il est important d’entrer d’abord sur le marché tout en collectant des données
- Moi aussi, j’ai souvent cassé des assiettes en vidant le lave-vaisselle
  Aucun système n’est parfait
- Moi, en tant qu’humain, je casse aussi deux assiettes par mois
  Si un robot fait mieux que ça, ce serait déjà une amélioration
- En robotique, il manque encore des données à l’échelle d’Internet
  Prétendre disposer déjà d’un modèle de niveau GPT ne semble pas honnête
Je me demande s’il faut continuer à utiliser le modèle actuel
jusqu’à ce que Google publie officiellement Gemini Flash 3.1

Gemini Robotics-ER 1.6 : raisonnement incarné amélioré

Présentation de Gemini Robotics-ER 1.6

Principales fonctions et améliorations de performance

Pointing : base du raisonnement spatial

Détection de réussite (Success Detection) : moteur central de l’autonomie

Lecture d’instruments (Instrument Reading) : raisonnement visuel en environnement réel

Améliorations en matière de sécurité

Collaboration avec la communauté robotique

À lire aussi

1 commentaires

Avis Hacker News