- Introduction de Gemini 2.0 dans la robotique avec la présentation d’un modèle vision-langage-action (VLA) et d’un modèle ER capable de comprendre l’espace
- Google DeepMind a fait progresser ses capacités de raisonnement multimodal en exploitant le texte, les images, l’audio et la vidéo pour résoudre des problèmes complexes
- Mais ces capacités sont jusqu’ici restées limitées aux environnements numériques
- Pour que l’IA devienne utile dans le monde physique, elle doit comprendre et réagir à l’environnement comme un humain, et disposer d’une capacité de "raisonnement incarné" (embodied reasoning) pour exécuter des tâches en toute sécurité
- Annonce de deux nouveaux modèles
- Gemini Robotics : un modèle vision-langage-action (VLA) basé sur Gemini 2.0 capable de contrôler directement des robots
- Gemini Robotics-ER : un modèle offrant une compréhension spatiale renforcée et des capacités accrues de contrôle robotique
- Développement en cours de la prochaine génération de robots humanoïdes en partenariat avec Apptronik
- Amélioration des performances du modèle en collaboration avec un petit nombre de testeurs de confiance
Gemini Robotics : le modèle vision-langage-action le plus avancé
1. Capacité de généralisation (Generality)
- Capable de s’adapter à de nouvelles situations et d’effectuer diverses tâches
- Excellentes performances avec de nouveaux objets, de nouvelles consignes et dans de nouveaux environnements
- Selon le rapport technique, les performances de généralisation sont plus de 2 fois supérieures à celles des modèles VLA existants
2. Capacité d’interaction (Interactivity)
- Capable de comprendre et de suivre des instructions en langage naturel
- Prise en charge de différentes langues et de consignes du quotidien
- Capable de réagir en temps réel aux changements de l’environnement et d’ajuster son comportement
- Peut immédiatement replanifier et poursuivre la tâche même si un objet glisse de la main ou change de position
3. Dextérité (Dexterity)
- Renforcement des capacités d’exécution de tâches fines
- Capable d’exécuter des tâches complexes en plusieurs étapes (ex. : origami, mise de snacks dans un sachet zip, etc.)
4. Applicabilité à différentes formes de robots (Multiple embodiments)
- Facilement applicable à différentes formes de robots
- Fonctionnement vérifié sur ALOHA 2, des robots basés sur Franka et le robot humanoïde Apollo
Gemini Robotics-ER : compréhension spatiale renforcée
- Renforcement majeur des capacités de perception spatiale et de détection 3D de Gemini 2.0
- Permet aux robots d’identifier la position des objets et de les manipuler de manière appropriée
- Association avec une capacité de génération de code → le robot peut créer à la volée de nouvelles façons d’effectuer une tâche
- Le taux de réussite est 2 à 3 fois supérieur à celui de Gemini 2.0
- Exemple de démonstration : reconnaître la poignée d’une tasse à café et l’attraper en l’abordant par une trajectoire sûre
Stratégie de renforcement de la sécurité pour l’IA et les robots
- Accent mis sur la résolution des problèmes de sécurité physique des robots
- Les robots appliquent des mesures de sécurité traditionnelles comme l’évitement des collisions, la limitation des forces de contact et le maintien de la stabilité dynamique
- Gemini Robotics-ER évalue s’il convient ou non d’exécuter une tâche lorsque la sécurité suscite des inquiétudes, puis réagit de manière appropriée
- Publication du nouveau jeu de données ASIMOV → objectif : évaluer et améliorer la sûreté des comportements robotiques
- Collaboration avec des comités internes de responsabilité et de sécurité ainsi qu’avec des experts externes pour traiter les questions éthiques
Principaux partenaires et prochaines étapes
- Développement de robots humanoïdes en partenariat avec Apptronik
- Agile Robots, Agility Robots, Boston Dynamics, Enchanted Tools et d’autres testent actuellement Gemini Robotics-ER
- L’entreprise prévoit de poursuivre les avancées en IA et en robotique
Liens associés
1 commentaires
Avis sur Hacker News