Google DeepMind dévoile Gemini Robotics

(deepmind.google)

4 points par GN⁺ 2025-03-13 | 1 commentaires | Partager sur WhatsApp

Introduction de Gemini 2.0 dans la robotique avec la présentation d’un modèle vision-langage-action (VLA) et d’un modèle ER capable de comprendre l’espace
Google DeepMind a fait progresser ses capacités de raisonnement multimodal en exploitant le texte, les images, l’audio et la vidéo pour résoudre des problèmes complexes
Mais ces capacités sont jusqu’ici restées limitées aux environnements numériques
Pour que l’IA devienne utile dans le monde physique, elle doit comprendre et réagir à l’environnement comme un humain, et disposer d’une capacité de "raisonnement incarné" (embodied reasoning) pour exécuter des tâches en toute sécurité
Annonce de deux nouveaux modèles
- Gemini Robotics : un modèle vision-langage-action (VLA) basé sur Gemini 2.0 capable de contrôler directement des robots
- Gemini Robotics-ER : un modèle offrant une compréhension spatiale renforcée et des capacités accrues de contrôle robotique
Développement en cours de la prochaine génération de robots humanoïdes en partenariat avec Apptronik
Amélioration des performances du modèle en collaboration avec un petit nombre de testeurs de confiance

Gemini Robotics : le modèle vision-langage-action le plus avancé

1. Capacité de généralisation (Generality)

Capable de s’adapter à de nouvelles situations et d’effectuer diverses tâches
Excellentes performances avec de nouveaux objets, de nouvelles consignes et dans de nouveaux environnements
Selon le rapport technique, les performances de généralisation sont plus de 2 fois supérieures à celles des modèles VLA existants

2. Capacité d’interaction (Interactivity)

Capable de comprendre et de suivre des instructions en langage naturel
Prise en charge de différentes langues et de consignes du quotidien
Capable de réagir en temps réel aux changements de l’environnement et d’ajuster son comportement
Peut immédiatement replanifier et poursuivre la tâche même si un objet glisse de la main ou change de position

3. Dextérité (Dexterity)

Renforcement des capacités d’exécution de tâches fines
Capable d’exécuter des tâches complexes en plusieurs étapes (ex. : origami, mise de snacks dans un sachet zip, etc.)

4. Applicabilité à différentes formes de robots (Multiple embodiments)

Facilement applicable à différentes formes de robots
Fonctionnement vérifié sur ALOHA 2, des robots basés sur Franka et le robot humanoïde Apollo

Gemini Robotics-ER : compréhension spatiale renforcée

Renforcement majeur des capacités de perception spatiale et de détection 3D de Gemini 2.0
Permet aux robots d’identifier la position des objets et de les manipuler de manière appropriée
Association avec une capacité de génération de code → le robot peut créer à la volée de nouvelles façons d’effectuer une tâche
Le taux de réussite est 2 à 3 fois supérieur à celui de Gemini 2.0
Exemple de démonstration : reconnaître la poignée d’une tasse à café et l’attraper en l’abordant par une trajectoire sûre

Stratégie de renforcement de la sécurité pour l’IA et les robots

Accent mis sur la résolution des problèmes de sécurité physique des robots
Les robots appliquent des mesures de sécurité traditionnelles comme l’évitement des collisions, la limitation des forces de contact et le maintien de la stabilité dynamique
Gemini Robotics-ER évalue s’il convient ou non d’exécuter une tâche lorsque la sécurité suscite des inquiétudes, puis réagit de manière appropriée
Publication du nouveau jeu de données ASIMOV → objectif : évaluer et améliorer la sûreté des comportements robotiques
Collaboration avec des comités internes de responsabilité et de sécurité ainsi qu’avec des experts externes pour traiter les questions éthiques

Principaux partenaires et prochaines étapes

Développement de robots humanoïdes en partenariat avec Apptronik
Agile Robots, Agility Robots, Boston Dynamics, Enchanted Tools et d’autres testent actuellement Gemini Robotics-ER
L’entreprise prévoit de poursuivre les avancées en IA et en robotique

Liens associés

1 commentaires

GN⁺ 2025-03-13

Avis sur Hacker News

Il y a un lien vers une playlist complète sur YouTube permettant de voir 20 vidéos de démonstration
On se demande si plus personne ne se souvient que des démos impressionnantes de Google Gemini ont déjà été truquées par le passé
On pensait que les lois de la robotique d'Asimov étaient un accessoire de SF intéressant, mais assez éloigné de l'informatique réelle
- En fait, il s'avère qu'Asimov écrivait des prompts de LLM avec plusieurs décennies d'avance
Si le tri des déchets devient plus simple et plus rapide, l'efficacité du recyclage pourrait être multipliée par 100
- Il existe déjà des endroits qui le font, mais il y a beaucoup de tâches simples où les robots peuvent améliorer le monde
La scène à la fin de la vidéo principale, où le robot met une courroie circulaire sur une poulie, était impressionnante
- Il y aura sans doute beaucoup de comportements de ce type dans les données d'entraînement, mais cela semblait plus intuitif que plier des chemises ou trier des objets
- Les fonctions de lecture automatique / pause / défilement de la vidéo sur la page semblent être cassées
On voudrait un appareil qui fonctionne comme un traducteur bidirectionnel en temps réel
- Ce serait bien de pouvoir vivre sur place sans perdre de temps à apprendre l'allemand ou une autre langue
- Ce serait incroyable de pouvoir commander à manger et gérer les démarches administratives uniquement en anglais
N'importe qui pourra commander un bras robotisé en Chine, l'installer dans son garage et le programmer en texte comme un LLM
- Il est temps de voir plus grand
Difficile de savoir si la vidéo représente les performances réelles ou une stratégie marketing, mais c'est impressionnant
- Cela rappelle les bras robotisés de Iron Man 1
Quand les robots seront assez habiles pour préparer des repas, ce sera un point de bascule pour le marché de l'emploi
- Le modèle actuel n'en est pas encore là, mais on verra si les gros investissements dans la génération de données synthétiques au cours des prochaines années permettront de s'en approcher
Le problème de Google, c'est que son activité publicitaire génère tellement de revenus que les autres produits n'ont plus vraiment de sens
- Ils utiliseront ce qu'ils auront appris avec les robots pour augmenter les revenus publicitaires

Google DeepMind dévoile Gemini Robotics

Gemini Robotics : le modèle vision-langage-action le plus avancé

1. Capacité de généralisation (Generality)

2. Capacité d’interaction (Interactivity)

3. Dextérité (Dexterity)

4. Applicabilité à différentes formes de robots (Multiple embodiments)

Gemini Robotics-ER : compréhension spatiale renforcée

Stratégie de renforcement de la sécurité pour l’IA et les robots

Principaux partenaires et prochaines étapes

Liens associés

À lire aussi

1 commentaires

Avis sur Hacker News