1 points par GN⁺ 14 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Un modèle de raisonnement incarné amélioré (embodied reasoning) conçu pour permettre aux robots de comprendre avec précision leur environnement physique et d’agir de manière autonome, avec un net renforcement du raisonnement spatial et de la planification des tâches
  • Il assure des fonctions de jugement de haut niveau pour les robots, comme la compréhension visuelle et spatiale, la détection de réussite et le raisonnement multi-vues, et traite directement des tâches complexes via Google Search ou des appels de fonctions externes
  • La fonction Pointing permet d’exécuter diverses logiques spatiales, comme la détection, la comparaison et l’estimation de trajectoires d’objets, tout en réduisant les hallucinations par rapport à la version précédente et en améliorant la précision de perception
  • Une nouvelle fonction de lecture d’instruments (Instrument Reading) permet au robot Spot de Boston Dynamics d’interpréter avec précision thermomètres, manomètres et autres instruments dans des installations industrielles
  • Le modèle se distingue aussi par une meilleure conformité aux politiques de sécurité et par sa collaboration avec la communauté pour accroître l’autonomie et la fiabilité en conditions réelles

Présentation de Gemini Robotics-ER 1.6

  • Gemini Robotics-ER 1.6 est un modèle de raisonnement incarné amélioré conçu pour permettre aux robots de comprendre avec précision leur environnement physique et d’agir de manière autonome
  • Il renforce des capacités de raisonnement de haut niveau essentielles en robotique, comme le raisonnement spatial, la compréhension multi-vues, la planification des tâches et la détection de réussite
  • Il peut appeler directement différents outils pour exécuter des tâches, comme Google Search, des modèles Vision-Language-Action (VLA) et des fonctions externes personnalisées
  • Il affiche des gains de performance marqués en raisonnement spatial et physique (pointing, comptage, détection de réussite) par rapport à Gemini Robotics-ER 1.5 et Gemini 3.0 Flash
  • Il ajoute une nouvelle fonction de lecture d’instruments (instrument reading) développée en collaboration avec Boston Dynamics

Principales fonctions et améliorations de performance

  • Gemini Robotics-ER 1.6 est proposé aux développeurs via la Gemini API et Google AI Studio
    • Des exemples Colab sur GitHub montrent comment configurer le modèle et construire des prompts pour des tâches de raisonnement incarné
  • Le modèle joue le rôle d’un moteur de raisonnement de haut niveau chargé des jugements robotiques, comme la compréhension visuelle et spatiale, la planification des tâches et la détection de réussite
  • Il exploite la vision agentique (agentic vision) pour combiner raisonnement visuel et exécution de code, et atteindre une grande précision même dans des environnements physiques complexes

Pointing : base du raisonnement spatial

  • Le pointing est une fonction clé du modèle de raisonnement incarné, utilisée pour diverses logiques spatiales comme la détection, la comparaison et l’estimation de trajectoires d’objets
    • Raisonnement spatial : détection précise des objets et comptage
    • Logique relationnelle : identification du plus petit élément d’un ensemble, définition de relations comme « déplacer X à l’emplacement Y »
    • Raisonnement moteur : cartographie de trajectoires et identification du point de préhension optimal
    • Respect des contraintes : traitement de commandes complexes comme « désigne tous les objets assez petits pour entrer dans la tasse bleue »
  • Gemini Robotics-ER 1.6 utilise le pointing comme étape intermédiaire pour résoudre progressivement des tâches complexes
    • Exemple : compter le nombre d’objets dans une image, identifier des points clés pour un calcul mathématique
  • D’après les résultats expérimentaux, la version 1.6 identifie avec précision de multiples objets comme des marteaux, ciseaux, pinceaux et pinces, et ne désigne pas des objets inexistants (ex. : brouette, perceuse)
    • La version 1.5 reconnaissait mal certains objets ou hallucinait des objets inexistants
    • 3.0 Flash affiche des performances proches, mais avec une précision plus faible pour la reconnaissance des pinces

Détection de réussite (Success Detection) : moteur central de l’autonomie

  • La capacité d’un robot à reconnaître le moment où une tâche est terminée est un élément clé de l’autonomie
  • Gemini Robotics-ER 1.6 améliore le raisonnement multi-vues (multi-view reasoning) afin de comprendre les relations entre plusieurs flux de caméras
    • Il permet une interprétation cohérente d’une scène même dans des environnements complexes, avec occlusion, problèmes d’éclairage ou consignes ambiguës
    • Exemple : déterminer avec précision, à partir de vidéos prises sous plusieurs angles, le moment où la tâche « mettre le stylo bleu dans le porte-stylo noir » est accomplie

Lecture d’instruments (Instrument Reading) : raisonnement visuel en environnement réel

  • Fonction d’interprétation des thermomètres, manomètres, sight glasses et autres instruments dans des installations industrielles
    • Le robot Spot de Boston Dynamics photographie les instruments sur site, puis Gemini Robotics-ER 1.6 les interprète
  • Prend en charge la lecture de divers types d’instruments, comme les manomètres circulaires, les indicateurs de niveau verticaux et les instruments numériques
  • Le processus de lecture interprète de manière intégrée des éléments visuels complexes comme la hauteur du liquide, les graduations, le texte des unités et les aiguilles multiples
    • Dans le cas des sight glasses, il estime le niveau du liquide en tenant compte de la distorsion de la caméra
  • Grâce à la vision agentique, il exécute par étapes zoom, pointing et exécution de code pour atteindre une lecture de précision au niveau sub-tick
  • Marco da Silva, vice-président de Boston Dynamics, a indiqué que cette fonction permet à Spot de reconnaître et traiter de manière totalement autonome des problèmes du monde réel

Améliorations en matière de sécurité

  • Gemini Robotics-ER 1.6 est présenté comme le modèle de robotique le plus sûr
    • Son taux de conformité aux politiques de sécurité de Gemini est supérieur à celui de la génération précédente
  • Renforcement du respect des contraintes de sécurité physique
    • Exemple : des contraintes comme « ne pas manipuler de liquides » ou « ne pas soulever d’objets de plus de 20 kg » sont prises en compte dès l’étape de sortie spatiale (pointing)
  • Dans des tests de reconnaissance de scénarios de sécurité en texte et en vidéo fondés sur des rapports réels de blessures
    • amélioration de +6 % en texte et +10 % en vidéo par rapport à Gemini 3.0 Flash
  • Dans l’évaluation Safety Instruction Following, forte progression par rapport à la version 1.5, avec également une meilleure précision du pointing

Collaboration avec la communauté robotique

  • Google DeepMind cherche à collaborer avec la communauté robotique pour continuer à améliorer les capacités de Gemini Robotics-ER
    • En cas de limites dans un domaine applicatif donné, l’entreprise demande de partager les cas d’échec en soumettant 10 à 50 images annotées
    • L’objectif est de renforcer la robustesse des capacités de raisonnement dans les futures versions
  • Gemini Robotics-ER 1.6 est disponible dès maintenant dans Google AI Studio

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.