4 points par GN⁺ 2025-03-13 | 1 commentaires | Partager sur WhatsApp
  • Introduction de Gemini 2.0 dans la robotique avec la présentation d’un modèle vision-langage-action (VLA) et d’un modèle ER capable de comprendre l’espace
  • Google DeepMind a fait progresser ses capacités de raisonnement multimodal en exploitant le texte, les images, l’audio et la vidéo pour résoudre des problèmes complexes
  • Mais ces capacités sont jusqu’ici restées limitées aux environnements numériques
  • Pour que l’IA devienne utile dans le monde physique, elle doit comprendre et réagir à l’environnement comme un humain, et disposer d’une capacité de "raisonnement incarné" (embodied reasoning) pour exécuter des tâches en toute sécurité
  • Annonce de deux nouveaux modèles
    • Gemini Robotics : un modèle vision-langage-action (VLA) basé sur Gemini 2.0 capable de contrôler directement des robots
    • Gemini Robotics-ER : un modèle offrant une compréhension spatiale renforcée et des capacités accrues de contrôle robotique
  • Développement en cours de la prochaine génération de robots humanoïdes en partenariat avec Apptronik
  • Amélioration des performances du modèle en collaboration avec un petit nombre de testeurs de confiance

Gemini Robotics : le modèle vision-langage-action le plus avancé

1. Capacité de généralisation (Generality)

  • Capable de s’adapter à de nouvelles situations et d’effectuer diverses tâches
  • Excellentes performances avec de nouveaux objets, de nouvelles consignes et dans de nouveaux environnements
  • Selon le rapport technique, les performances de généralisation sont plus de 2 fois supérieures à celles des modèles VLA existants

2. Capacité d’interaction (Interactivity)

  • Capable de comprendre et de suivre des instructions en langage naturel
  • Prise en charge de différentes langues et de consignes du quotidien
  • Capable de réagir en temps réel aux changements de l’environnement et d’ajuster son comportement
  • Peut immédiatement replanifier et poursuivre la tâche même si un objet glisse de la main ou change de position

3. Dextérité (Dexterity)

  • Renforcement des capacités d’exécution de tâches fines
  • Capable d’exécuter des tâches complexes en plusieurs étapes (ex. : origami, mise de snacks dans un sachet zip, etc.)

4. Applicabilité à différentes formes de robots (Multiple embodiments)

  • Facilement applicable à différentes formes de robots
  • Fonctionnement vérifié sur ALOHA 2, des robots basés sur Franka et le robot humanoïde Apollo

Gemini Robotics-ER : compréhension spatiale renforcée

  • Renforcement majeur des capacités de perception spatiale et de détection 3D de Gemini 2.0
  • Permet aux robots d’identifier la position des objets et de les manipuler de manière appropriée
  • Association avec une capacité de génération de code → le robot peut créer à la volée de nouvelles façons d’effectuer une tâche
  • Le taux de réussite est 2 à 3 fois supérieur à celui de Gemini 2.0
  • Exemple de démonstration : reconnaître la poignée d’une tasse à café et l’attraper en l’abordant par une trajectoire sûre

Stratégie de renforcement de la sécurité pour l’IA et les robots

  • Accent mis sur la résolution des problèmes de sécurité physique des robots
  • Les robots appliquent des mesures de sécurité traditionnelles comme l’évitement des collisions, la limitation des forces de contact et le maintien de la stabilité dynamique
  • Gemini Robotics-ER évalue s’il convient ou non d’exécuter une tâche lorsque la sécurité suscite des inquiétudes, puis réagit de manière appropriée
  • Publication du nouveau jeu de données ASIMOV → objectif : évaluer et améliorer la sûreté des comportements robotiques
  • Collaboration avec des comités internes de responsabilité et de sécurité ainsi qu’avec des experts externes pour traiter les questions éthiques

Principaux partenaires et prochaines étapes

  • Développement de robots humanoïdes en partenariat avec Apptronik
  • Agile Robots, Agility Robots, Boston Dynamics, Enchanted Tools et d’autres testent actuellement Gemini Robotics-ER
  • L’entreprise prévoit de poursuivre les avancées en IA et en robotique

Liens associés

1 commentaires

 
GN⁺ 2025-03-13
Avis sur Hacker News
  • Il y a un lien vers une playlist complète sur YouTube permettant de voir 20 vidéos de démonstration
  • On se demande si plus personne ne se souvient que des démos impressionnantes de Google Gemini ont déjà été truquées par le passé
  • On pensait que les lois de la robotique d'Asimov étaient un accessoire de SF intéressant, mais assez éloigné de l'informatique réelle
    • En fait, il s'avère qu'Asimov écrivait des prompts de LLM avec plusieurs décennies d'avance
  • Si le tri des déchets devient plus simple et plus rapide, l'efficacité du recyclage pourrait être multipliée par 100
    • Il existe déjà des endroits qui le font, mais il y a beaucoup de tâches simples où les robots peuvent améliorer le monde
  • La scène à la fin de la vidéo principale, où le robot met une courroie circulaire sur une poulie, était impressionnante
    • Il y aura sans doute beaucoup de comportements de ce type dans les données d'entraînement, mais cela semblait plus intuitif que plier des chemises ou trier des objets
    • Les fonctions de lecture automatique / pause / défilement de la vidéo sur la page semblent être cassées
  • On voudrait un appareil qui fonctionne comme un traducteur bidirectionnel en temps réel
    • Ce serait bien de pouvoir vivre sur place sans perdre de temps à apprendre l'allemand ou une autre langue
    • Ce serait incroyable de pouvoir commander à manger et gérer les démarches administratives uniquement en anglais
  • N'importe qui pourra commander un bras robotisé en Chine, l'installer dans son garage et le programmer en texte comme un LLM
    • Il est temps de voir plus grand
  • Difficile de savoir si la vidéo représente les performances réelles ou une stratégie marketing, mais c'est impressionnant
    • Cela rappelle les bras robotisés de Iron Man 1
  • Quand les robots seront assez habiles pour préparer des repas, ce sera un point de bascule pour le marché de l'emploi
    • Le modèle actuel n'en est pas encore là, mais on verra si les gros investissements dans la génération de données synthétiques au cours des prochaines années permettront de s'en approcher
  • Le problème de Google, c'est que son activité publicitaire génère tellement de revenus que les autres produits n'ont plus vraiment de sens
    • Ils utiliseront ce qu'ils auront appris avec les robots pour augmenter les revenus publicitaires