Comment Google a développé le modèle Gemini Robotics
(blog.google)- Google DeepMind a développé Gemini Robotics, un modèle d’IA multimodal de nouvelle génération pour des robots capables d’effectuer des tâches physiques
- Ce modèle est une version de Gemini 2.0 affinée avec des données spécialisées pour la robotique afin de pouvoir exécuter non seulement du texte, de la vidéo et de l’audio, mais aussi des actions réelles
- Le robot peut accomplir diverses tâches comme préparer une salade, jouer au morpion, faire de l’origami ou emballer un déjeuner
Exemples de tests réels et validation du potentiel
- Diverses tâches ont été demandées au robot de recherche à deux bras ALOHA
- Ex. : mettre un stylo dans une chaussure, réussir un dunk avec un ballon de basket, etc.
- Même lorsqu’il s’agissait d’objets et de tâches jamais vus auparavant, le robot a compris la demande et l’a exécutée avec succès dès le premier essai
- Contrairement aux modèles existants, il peut comprendre et exécuter en langage naturel des instructions physiques complexes
Principales caractéristiques de Gemini Robotics
- Il offre une grande flexibilité, des capacités d’interaction et de généralisation élevées
- Il peut s’adapter à de nouveaux objets, environnements et consignes sans entraînement supplémentaire
- Il pose les bases de la mise en œuvre de l’IA et des robots comme un agent unifié
- Il fournit des capacités de perception, de jugement et d’action proches de celles de l’humain
Présentation des modèles qui le composent
-
Gemini Robotics-ER (Embodied Reasoning) :
- Basé sur Gemini 2.0 Flash
- Il génère et exécute du code via la reconnaissance d’objets, la localisation, la prédiction de trajectoires de déplacement et le paramétrage de la prise
- Il est actuellement accessible à des testeurs et partenaires de confiance
-
Gemini Robotics:
- Modèle intégré vision-langage-action
- Il peut comprendre une scène, interagir avec l’utilisateur et exécuter des tâches en plusieurs étapes
- Il enregistre des performances de dextérité de niveau state of the art même sur des tâches nécessitant des manipulations complexes et du raisonnement spatial
Capacités techniques concrètes
- Détection d’objets en 2D et 3D
- Fonction de pointage (désignation)
- Recherche de correspondances entre plusieurs vues
- Capacité de manipulation exploitant diverses informations visuelles
Approche d’entraînement et avantages
- Au lieu de la méthode industrielle classique d’entraînement répétitif sur une seule tâche, Google a choisi un apprentissage large à travers des tâches variées
- En conséquence, une capacité de généralisation émerge naturellement
- Le modèle peut s’appliquer à différents types de robots
- Ex. : ALOHA (recherche), Apollo d’Apptronik (robot humanoïde)
Prise en charge de différentes formes de robots
- Des robots de formes variées effectuent des tâches diverses comme emballer des déjeuners, effacer un tableau blanc ou saisir de petits objets
- Le point clé est qu’un seul modèle peut s’adapter à plusieurs robots
Vision à venir
- Son utilité est attendue dans des secteurs industriels exigeant des tâches de précision ou opérant dans des environnements peu adaptés aux humains
- Il pourrait aussi évoluer vers des robots utiles dans des environnements centrés sur l’humain, comme le domicile
- Dans la vie quotidienne, les robots pourraient devenir une autre interface avec l’IA
1 commentaires
Commentaires sur Hacker News