5 points par GN⁺ 2025-06-26 | 1 commentaires | Partager sur WhatsApp
  • Modèle VLA (vision-langage-action) généraliste optimisé pour être embarqué directement sur des robots
  • Offre une adaptation rapide aux tâches et une dextérité généraliste, fonctionne en local sans connexion Internet et garantit ainsi faible latence et robustesse
  • Nécessite un minimum de ressources de calcul et dispose de capacités de manipulation de précision sur robots bi-bras et de changement rapide de tâches
  • Avec le Gemini Robotics SDK, les développeurs peuvent tester rapidement le modèle dans leur propre environnement, et une adaptation rapide aux tâches est possible avec seulement 50 à 100 démonstrations
  • Affiche des performances de généralisation et d’adaptation supérieures à celles d’autres modèles on-device, et exécute efficacement des consignes complexes ou de nouvelles tâches
  • Applique des principes de sécurité et de développement responsable afin de minimiser les risques liés aux environnements réels et à l’impact sociétal, avec un système structuré de collecte de retours

We’re introducing an efficient, on-device robotics model with general-purpose dexterity and fast task adaptation

  • Gemini Robotics On-Device est un modèle VLA (vision-langage-action) à haute efficacité conçu pour fonctionner directement sur des appareils robotiques locaux
  • Il applique au monde physique les capacités de raisonnement multimodal et la compréhension du monde réel de Gemini Robotics, présenté en mars
  • Atouts du modèle on-device

    • Il fonctionne de manière autonome sans réseau, ce qui en fait une solution solide dans les environnements exigeant une faible latence ou une connectivité instable
    • Optimisé pour l’environnement local, il permet d’exécuter rapidement des tâches en temps réel
    • Il dispose de capacités variées de généralisation visuelle, sémantique et comportementale
    • Il peut réaliser des tâches de manipulation de précision sur robots bi-bras (ouvrir une fermeture éclair, plier des vêtements, etc.)
    • Il comprend les instructions en langage naturel et peut exécuter des tâches complexes en plusieurs étapes

Le SDK facilite le déploiement et la personnalisation

  • Grâce au Gemini Robotics SDK, les développeurs peuvent tester le modèle dans leur propre environnement, l’évaluer avec le simulateur physique MuJoCo et l’appliquer à diverses tâches
  • Une adaptation rapide à de nouveaux domaines est possible avec seulement 50 à 100 démonstrations

Model capabilities and performance

  • Gemini Robotics On-Device est conçu pour les robots bi-bras avec un minimum de ressources de calcul
  • Il est optimisé pour les expérimentations rapides, la manipulation fondée sur la dextérité, l’exécution locale et l’inférence à faible latence
  • Il reconnaît les commandes en langage naturel et réalise directement des manipulations complexes comme ouvrir une fermeture éclair ou plier des vêtements
  • Par rapport aux modèles on-device existants, il offre d’excellentes performances de polyvalence et de généralisation, et traite efficacement des consignes complexes en plusieurs étapes
  • Pour des performances plus élevées ou des environnements sans contraintes, le modèle Gemini Robotics (côté serveur) est également proposé

Adaptable to new tasks, generalizable across embodiments

  • Gemini Robotics On-Device est le premier modèle VLA pouvant être fine-tuné
  • Avec seulement 50 à 100 démonstrations, il s’adapte rapidement à de nouvelles tâches et montre de meilleures performances d’adaptation que les modèles concurrents sur des tâches de dextérité de difficulté variée (fermer une fermeture éclair, tirer une carte, verser une sauce, etc.)
  • Bien qu’entraîné pour un robot spécifique (ALOHA), il peut être étendu à d’autres formes de robots, comme Franka FR3 et Apollo humanoid, via un apprentissage supplémentaire
  • Il peut aussi gérer diverses consignes, de nouveaux objets et des tâches industrielles complexes (comme l’assemblage de courroies)

Responsible development and safety

  • Le modèle a été développé sur la base des AI Principles et d’un cadre de sécurité intégré
  • Il assure la sûreté sémantique et de contenu via la [Live API] et renforce la sécurité en conditions réelles en s’intégrant à des contrôleurs de sécurité de bas niveau
  • Les risques sont évalués à l’aide de différents dispositifs, comme le Semantic Safety Benchmark et le red teaming
  • Des équipes dédiées (Responsible Development & Innovation, RSC) poursuivent en continu l’évaluation de l’impact sociétal et la collecte de retours
  • Une préversion a été fournie à un groupe de testeurs de confiance afin de recueillir des évaluations initiales sur l’utilisabilité et la sécurité

Accelerating innovation in robotics

  • Gemini Robotics On-Device aide la communauté robotique à surmonter les problèmes de latence et de connectivité en fournissant un modèle d’IA généraliste et adaptable
  • Son déploiement rapide via le SDK et ses capacités d’adaptation aux tâches devraient accélérer l’innovation
  • Le modèle et le SDK sont accessibles via le Trusted Tester Program
  • Il élargit l’application de l’IA au monde physique et présente une vision appelée à façonner l’avenir de la robotique

1 commentaires

 
GN⁺ 2025-06-26
Avis sur Hacker News
  • J’ai une vision optimiste de la robotique humanoïde, mais je m’interroge sur la question de la fiabilité. Les bras, les jambes et les mains des humains forment un système remarquable qui touche sans cesse le monde, subit une usure naturelle, puis se rétablit de lui-même

    • Les robots industriels sont extrêmement performants en matière de fiabilité. Leur MTBF (temps moyen entre pannes) dépasse souvent 100�00 heures. Il est essentiel qu’ils soient conçus pour fonctionner le plus longtemps possible sans panne afin d’améliorer leur rentabilité. Des entreprises allemandes et japonaises ont dominé le marché des robots industriels en développant des actionneurs électriques avec une forte priorité donnée à la fiabilité. Par le passé, les robots hydrauliques de Cincinnati Millicron aux États-Unis étaient puissants, mais moins fiables, et ont perdu la compétition. Il existe toutefois un point de vue sceptique selon lequel les mains humanoïdes, avec leurs nombreuses petites pièces devant supporter des forces importantes, auront du mal à atteindre le même niveau de fiabilité que les robots industriels lien connexe

    • Quand on pense aux possibilités du futur proche, c’est à la fois très enthousiasmant et légèrement inquiétant. Je pensais auparavant qu’on se concentrerait sur des objectifs précis, comme des robots uniquement dédiés au nettoyage, mais en réalité, une fois prêts, ils sembleront probablement très polyvalents. Il faudra beaucoup de capteurs et de moteurs, mais il est intéressant de noter que le risque juridique sera plus faible et que les ressources nécessaires seront moindres que pour les voitures autonomes

    • Je pense qu’il serait aussi possible que d’autres robots remplacent automatiquement les pièces consommables

    • Je pense que des recherches supplémentaires en science des matériaux pourraient aussi résoudre ce problème. Combiné à des servos réactifs mais à faible couple, cela me semble également soluble

    • Ce qui est intéressant, c’est la manière dont les robots vont chacun évoluer « différemment » avec le temps. Par exemple, dans des environnements difficiles comme les robots miniers, certaines pièces peuvent être fortement encrassées par la poussière, s’user à divers endroits, ou se tordre à cause de chutes de pierres. Même si un autre robot les répare provisoirement, tous finiront sans doute par diverger légèrement au fil du temps. Comme pour la maintenance des avions commerciaux, qui se fait souvent au cas par cas selon les collisions ou les dégâts, le recyclage sera peut-être une solution plus simple pour les robots aussi

  • Je me demande s’il est facile d’entrer dans le « trusted tester program » et s’ils fournissent aussi des modules permettant d’utiliser facilement le SDK

    • Il est indiqué qu’il y a un bouton d’inscription en bas de l’article
  • Je me demande sur quel matériel tourne le SDK, et s’il fonctionne aussi sur les Raspberry Pi récents

    • D’après le billet de blog, il faut au minimum un NVIDIA Jetson Orin avec 8 GB de RAM, et il est optimisé pour les modules Jetson AGX Orin (64 GB) et Orin NX (16 GB)

    • Il est mentionné que l’un des contributeurs du projet a publié sur x un message disant que cela tournait sur une carte graphique 4090 lien x connexe

    • Fondamentalement, on peut considérer ce système comme un LLM multimodal. Les petits modèles comme SmolVLA (0.5B paramètres) sont rapides et efficaces pour des tâches spécifiques, tandis qu’OpenVLA (finetune de Llama2 7B) est un modèle plus grand utilisé pour des tâches plus générales. On peut faire tourner certains modèles spécialisés sur un Raspberry Pi, et pour les modèles plus généraux, du matériel grand public haut de gamme suffit probablement

  • Le lien MuJoCo pointe en réalité vers github.com/google-deepmind/aloha_sim

  • Je suis curieux au sujet de l’architecture du modèle, et je m’attends à ce qu’elle soit très différente d’un LLM. Si quelqu’un a un lien expliquant en détail l’architecture VLA, je suis preneur

    • Je pense en réalité que la structure est très proche d’un LLM. C’est un modèle VLA, pour « Visual Language Action », basé sur Gemini 2.0. Gemini 2.0 prend nativement en charge le langage, l’audio et la vidéo, donc on peut supposer qu’il peut aussi intégrer des données d’« action ». Cela ressemble probablement à une structure où des données d’action ont été ajoutées lors de l’étape de fine-tuning en sortie. À mon avis, ce type de LLM multimodal natif va bientôt jouer le rôle de « cerveau »
  • Il est certain que ces technologies finiront inévitablement aussi comme machines de guerre. L’autonomie on-device est idéale pour échapper à l’autorité centrale ou au suivi des responsabilités. Contrairement à un pilote de drone, on ne peut pas poursuivre un humain pour crime de guerre. Les contrats militaires sont trop massifs pour qu’il soit facile d’y résister, et l’élimination du travail pénible mènera bientôt à l’élimination pure et simple de l’humain. Un futur où « AI-Powered Automation for Every Decision » fait disparaître toute vie humaine rentable devient d’une clarté troublante palantir.com

    • Boston Dynamics, filiale issue du MIT rachetée par Google, a promis de ne pas militariser ses robots, mais vu son historique réel avec la DARPA, le département de la Défense américain et d’autres investissements militaires, il est très difficile de lui faire confiance

    • Pratiquement toutes les technologies utiles ont des applications militaires. Je ne vois pas pourquoi c’est un sujet si polémique

    • J’ai du mal à imaginer ce robot rivaliser avec les drones sur le champ de bataille. Il coûtera probablement autant que 1000 drones autonomes, et demandera plus de 100 fois plus de temps et de ressources. Les drones ont déjà prouvé en conditions réelles de guerre, par exemple en Ukraine, qu’ils étaient petits et redoutablement efficaces, et peu importe l’agilité des mouvements, il sera difficile d’échapper à des drones explosifs. Même si Terminator tient un fusil à pompe, on peut facilement déployer 5 drones pour chacun d’eux, et ces drones pourraient eux-mêmes être fabriqués par un autre robot autonome

  • Je trouve frappant le schéma chez Google qui consiste à dévoiler discrètement des produits innovants puis à les laisser presque immédiatement tomber dans l’oubli. Pas de grande campagne marketing, juste un billet de blog, le sujet circule dans la communauté tech puis disparaît, et quelques années plus tard on se demande « qu’est-ce que c’est devenu ? ». Cela dit, ce produit a l’air très cool, et j’aimerais que quelqu’un en fasse une belle startup

    • L’objectif principal de ce type de projet chez Google est de tenir les régulateurs à distance. Il ne s’agit pas de monétiser ces produits, mais simplement de brûler volontairement un peu d’argent avant de passer à autre chose, une liberté permise uniquement par une entreprise en situation de monopole
  • Je vais me faire un café pendant que j’attends la réponse de l’API

  • Je pense que la seule façon d’empêcher un robot de s’évader pour aller braquer une banque ou faire ce genre de choses, c’est de déplacer le GPU vers un cloud privé de GPU de sécurité SOTA

  • Je me demande s’il y aura des garde-fous du type Three Laws of Robotics pour éviter que le robot ne devienne fou en exécutant des prompts

    • Les Trois lois de la robotique ont été conçues comme un ressort de conflit dans la fiction, donc ce serait problématique de faire un système réel de cette façon. En pratique, la conception de sécurité de Gemini Robotics repose sur une structure multicouche. Le modèle raisonne sur ce qui est sûr ou non, le VLA propose des options d’exécution, puis un contrôleur de bas niveau intervient à la fin avec des fonctions de sécurité intégrées comme des limites de vitesse ou de force

    • Le terme général pour ce type de recherche est Constitutional AI, et il est expérimenté ou cité dans de nombreux VLA en robotique article connexe

    • Les garde-fous réellement appliqués aujourd’hui sont probablement plus proches de l’IEC 61508 (norme internationale de sécurité fonctionnelle) que des trois lois

    • Il y a aussi l’idée du code qui coupe l’alimentation

    • À mon avis, les Trois lois de la robotique sont des règles sans réelle signification dans le monde réel