Comment Google a développé le modèle Gemini Robotics

(blog.google)

6 points par GN⁺ 2025-04-04 | 1 commentaires | Partager sur WhatsApp

Google DeepMind a développé Gemini Robotics, un modèle d’IA multimodal de nouvelle génération pour des robots capables d’effectuer des tâches physiques
Ce modèle est une version de Gemini 2.0 affinée avec des données spécialisées pour la robotique afin de pouvoir exécuter non seulement du texte, de la vidéo et de l’audio, mais aussi des actions réelles
Le robot peut accomplir diverses tâches comme préparer une salade, jouer au morpion, faire de l’origami ou emballer un déjeuner

Exemples de tests réels et validation du potentiel

Diverses tâches ont été demandées au robot de recherche à deux bras ALOHA
- Ex. : mettre un stylo dans une chaussure, réussir un dunk avec un ballon de basket, etc.
- Même lorsqu’il s’agissait d’objets et de tâches jamais vus auparavant, le robot a compris la demande et l’a exécutée avec succès dès le premier essai
Contrairement aux modèles existants, il peut comprendre et exécuter en langage naturel des instructions physiques complexes

Principales caractéristiques de Gemini Robotics

Il offre une grande flexibilité, des capacités d’interaction et de généralisation élevées
- Il peut s’adapter à de nouveaux objets, environnements et consignes sans entraînement supplémentaire
Il pose les bases de la mise en œuvre de l’IA et des robots comme un agent unifié
Il fournit des capacités de perception, de jugement et d’action proches de celles de l’humain

Présentation des modèles qui le composent

Gemini Robotics-ER (Embodied Reasoning) :
- Basé sur Gemini 2.0 Flash
- Il génère et exécute du code via la reconnaissance d’objets, la localisation, la prédiction de trajectoires de déplacement et le paramétrage de la prise
- Il est actuellement accessible à des testeurs et partenaires de confiance
Gemini Robotics:
- Modèle intégré vision-langage-action
- Il peut comprendre une scène, interagir avec l’utilisateur et exécuter des tâches en plusieurs étapes
- Il enregistre des performances de dextérité de niveau state of the art même sur des tâches nécessitant des manipulations complexes et du raisonnement spatial

Capacités techniques concrètes

Détection d’objets en 2D et 3D
Fonction de pointage (désignation)
Recherche de correspondances entre plusieurs vues
Capacité de manipulation exploitant diverses informations visuelles

Approche d’entraînement et avantages

Au lieu de la méthode industrielle classique d’entraînement répétitif sur une seule tâche, Google a choisi un apprentissage large à travers des tâches variées
En conséquence, une capacité de généralisation émerge naturellement
Le modèle peut s’appliquer à différents types de robots
- Ex. : ALOHA (recherche), Apollo d’Apptronik (robot humanoïde)

Prise en charge de différentes formes de robots

Des robots de formes variées effectuent des tâches diverses comme emballer des déjeuners, effacer un tableau blanc ou saisir de petits objets
Le point clé est qu’un seul modèle peut s’adapter à plusieurs robots

Vision à venir

Son utilité est attendue dans des secteurs industriels exigeant des tâches de précision ou opérant dans des environnements peu adaptés aux humains
Il pourrait aussi évoluer vers des robots utiles dans des environnements centrés sur l’humain, comme le domicile
Dans la vie quotidienne, les robots pourraient devenir une autre interface avec l’IA

1 commentaires

GN⁺ 2025-04-04

Commentaires sur Hacker News

Ils peuvent faire ça, mais malgré tout, le Gemini Assistant sur les téléphones Pixel échoue encore à régler un minuteur ou à ajouter des éléments à une liste de courses. (Avec Google Assistant, ça marchait bien.)
Il n’y a absolument aucune explication sur le « comment », mais si cette fonctionnalité fonctionne ne serait-ce qu’à moitié de manière fiable, son impact sera environ 100 fois supérieur à celui de ChatGPT
Les avancées en IA et en robotique sont vraiment passionnantes. Avec des systèmes complexes comme Gemini, les entreprises devront probablement s’appuyer sur des équipes spécialisées pour concrétiser ce type d’innovation
- En externalisant certains rôles spécifiques, comme la recherche en IA ou l’ingénierie robotique, les entreprises peuvent recruter des talents de tout premier plan sans le poids d’embauches à temps plein
- Il est intéressant de voir comment l’externalisation peut compléter la R&D dans des secteurs de pointe comme la robotique
- Je suis particulièrement curieux de voir comment le secteur va évoluer, notamment en matière de scalabilité et de vitesse d’entrée sur le marché
On dirait que quelqu’un finira par aider aux tâches ménagères
- Ah, super. J’aime bien la tentative de nous faire croire qu’ils plieront notre linge, alors qu’au fond tout ça a des objectifs militaires
« Ramasse le ballon de basket et fais un dunk. » Le killer use case qu’on attendait depuis si longtemps :)
Même si la technologie robotique de Google (logicielle comme matérielle) est à la pointe, je me demande s’ils seront réellement capables d’en faire un produit
- Cela ressemble à ce qui s’est passé quand ils étaient en tête sur les transformeurs mais ont perdu tout leur avantage face à ChatGPT
- J’ai l’impression qu’il y a chez Google quelque chose qui les empêche de passer efficacement de la recherche au produit
- Si vous pensez que Waymo a aujourd’hui atteint le product-market fit, c’est peut-être un bon contre-exemple, mais je n’arrive pas à me défaire de l’impression que Google, le plus souvent, soit n’arrive pas à lancer ses produits sur le marché, soit abandonne avant qu’ils ne s’imposent
- Je me demande si quelqu’un a un avis tranché ou des éclairages sur leurs efforts en robotique
C’est effrayant de penser que ce type de robot pourrait un jour être utilisé dans l’industrie de la défense
- Si un robot comprend des ordres généraux comme « range la gomme », imagine l’ordre « élimine tous les ennemis »
Par simple curiosité, que ferait-il si on lui ordonnait de tuer quelqu’un ? Respecterait-il les lois de la robotique ?
Poisson d’avril !

Comment Google a développé le modèle Gemini Robotics

Exemples de tests réels et validation du potentiel

Principales caractéristiques de Gemini Robotics

Présentation des modèles qui le composent

Capacités techniques concrètes

Approche d’entraînement et avantages

Prise en charge de différentes formes de robots

Vision à venir

À lire aussi

1 commentaires

Commentaires sur Hacker News