Toyota Research Institute affirme avoir franchi une étape majeure pour enseigner de nouveaux comportements aux robots

(tri.global)

2 points par GN⁺ 2023-09-21 | 1 commentaires | Partager sur WhatsApp

Pour accélérer l’extension des tâches de manipulation sophistiquées, Toyota Research Institute a présenté une approche qui apprend des comportements robotiques avec une IA générative fondée sur Diffusion Policy
Cette méthode constitue une étape vers des Large Behavior Models pour les robots, en tentant d’appliquer à l’apprentissage des comportements robotiques le rôle joué par les LLM dans l’IA conversationnelle
TRI affirme avoir appris plus de 60 compétences, comme verser un liquide, utiliser des outils ou manipuler des objets déformables, sans écrire de nouveau code, en fournissant uniquement de nouvelles données
L’apprentissage combine les démonstrations tactiles d’un enseignant et une description linguistique de l’objectif ; le point clé est qu’il permet de créer des comportements déployables de manière autonome avec seulement quelques dizaines de démonstrations
L’objectif est d’atteindre plusieurs centaines de compétences d’ici fin 2023, puis 1 000 compétences d’ici fin 2024, avec des garanties de sécurité conçues conjointement avec Drake et une pile de contrôle personnalisée

Accélérer l’apprentissage des comportements robotiques avec Diffusion Policy

Toyota Research Institute a annoncé une approche d’IA générative pour enseigner rapidement et de manière fiable de nouvelles compétences sophistiquées aux robots
Cette approche constitue une étape vers la construction de Large Behavior Models (LBM) pour les robots, par analogie avec le rôle joué par les Large Language Models (LLM) dans l’IA conversationnelle
Les méthodes de pointe existantes présentaient plusieurs limites pour enseigner de nouveaux comportements
- L’apprentissage était lent et peu cohérent
- Il était peu efficace et restait souvent cantonné à des tâches étroites dans des environnements très contraints
- Les roboticiens devaient écrire du code complexe pendant de nombreuses heures ou passer par beaucoup d’essais et d’erreurs

Plus de 60 compétences apprises sans nouveau code

Le modèle de comportement robotique de TRI utilise à la fois les démonstrations tactiles d’un enseignant et des descriptions linguistiques des objectifs
Il apprend ensuite les compétences démontrées grâce à Diffusion Policy, fondé sur l’IA
- Un nouveau comportement peut être déployé de façon autonome avec seulement quelques dizaines de démonstrations
- Le résultat de l’apprentissage vise à produire rapidement des comportements cohérents, répétables et très performants
TRI a déjà enseigné plus de 60 compétences sophistiquées à des robots
- Parmi les exemples : verser un liquide, utiliser des outils et manipuler des objets déformables
- Cela a été obtenu sans écrire de nouveau code, uniquement en fournissant de nouvelles données
Les objectifs sont de plusieurs centaines de compétences d’ici fin 2023, puis 1 000 compétences d’ici fin 2024
Les nouvelles compétences vont au-delà du simple « pick and place » et incluent des comportements qui interagissent avec le monde de diverses manières
- À long terme, elles pourraient servir à des robots aidant les humains dans des environnements quotidiens, imprévisibles et en évolution constante

Plateforme personnalisée et conception de la sécurité basée sur Drake

TRI et le groupe du professeur Song à Columbia University ont développé Diffusion Policy, une approche d’IA générative pour l’apprentissage des comportements
- Diffusion Policy a été présentée à la conférence Robotics Science and Systems 2023
La plateforme robotique de TRI a été conçue sur mesure pour des tâches sophistiquées de manipulation bimanuale
- Elle met l’accent sur la possibilité de retour tactile et de détection tactile
TRI utilise Drake comme outil de conception basé modèle et plateforme de simulation pour la robotique
- La pile robotique interne est construite sur les frameworks d’optimisation et de systèmes de Drake
- Drake est publié en open source afin de favoriser les travaux de l’ensemble de la communauté robotique
La sécurité est un élément central de conception dans la recherche robotique de TRI
- Le système comprend des protections pilotées par Drake et une pile de contrôle robotique personnalisée
- Il est conçu pour respecter des garanties de sécurité empêchant le robot d’entrer en collision avec lui-même ou avec son environnement

1 commentaires

GN⁺ 2023-09-21

Avis sur Hacker News

Ayant fait partie de la communauté de l’apprentissage robotique, à la fois en troisième cycle et dans l’industrie, je comprends tout à fait que TRI reçoive ici l’essentiel des éloges, mais je voudrais aussi souligner correctement la contribution centrale
Au cœur de cette avancée se trouve Diffusion Policy [1], développée et lancée par le laboratoire de la professeure Shuran Song à Columbia. Le site original du projet [2] vaut vraiment le détour, avec beaucoup d’expériences difficiles menées dans le monde réel
Lors de la conférence R:SS de cette année [3], c’était un candidat très populaire dans la communauté pour le Best Paper Award, et notre labo ainsi que d’autres labos d’apprentissage du département de robotique ont disséqué cet article en détail. Je connais aussi des gens qui ont abandonné leurs projets de clonage comportemental / apprentissage par imitation pour se réorienter complètement vers cette approche, qui gère bien plus naturellement les espaces d’action multimodaux
La professeure Song est aujourd’hui une chercheuse vraiment remarquable en robotique, et elle a proposé plusieurs excellentes approches qui passent élégamment au monde réel, comme IRP [4]. IRP a reçu le Best Paper à R:SS 2022, et FlingBot [5] ainsi que Scaling Up Distilling Down [6] valent aussi le coup d’œil
[1] - https://arxiv.org/abs/2303.04137
[2] - https://diffusion-policy.cs.columbia.edu/
[3] - https://roboticsconference.org/program/awards/
[4] - https://irp.cs.columbia.edu/
[5] - https://flingbot.cs.columbia.edu/
[6] - https://www.cs.columbia.edu/~huy/scalingup/
- Pour être juste, TRI crédite aussi la professeure Song et l’article lié. Dans cet article, TRI figure aussi comme institution collaboratrice
  « Diffusion Policy : les collaborateurs de TRI et du groupe de la professeure Song à Columbia University ont développé une nouvelle approche d’IA générative puissante pour l’apprentissage des comportements. Cette approche, appelée Diffusion Policy, permet d’enseigner des comportements facilement et rapidement par démonstration »
- Diffusion Policy comme IRP semblent aussi avoir été des travaux menés en collaboration avec TRI
- Quelqu’un pourrait-il expliquer simplement la diffusion ? Une explication pour quelqu’un qui comprend les autoencodeurs, les transformers et les réseaux de neurones convolutifs me convient aussi
  Je me demande pourquoi cela fonctionne tellement mieux que les alternatives mentionnées plus haut
- Il semble que certains chercheurs du laboratoire de la professeure Song aient aussi travaillé avec Toyota
Pour ceux que cela intéresse, il y a la chaîne YouTube de Russ Tedrake : https://www.youtube.com/@underactuated5171
On y trouve les cours 6.4210 (2023) Robotics Manipulation et 6.8210 (2023) Underactuated Robotics
Content de voir les travaux récents de Russ Tedrake. Son cours en ligne Underactuated Robotics est excellent pour saisir la complexité de la robotique
Les travaux d’apprentissage robotique souvent recommandés sur HN se résument généralement à « coller plus ou moins un LLM sur un robot », donc c’est appréciable de voir quelqu’un avec une connaissance bien plus profonde du sujet mis en avant. Pour construire de vrais agents incarnés dans le monde réel, avec tout son désordre, résoudre uniquement l’apprentissage du langage ne suffit pas
Le site web ne se charge pas, mais j’ai trouvé la vidéo sur le YouTube de Toyota Research : https://www.youtube.com/watch?v=w-CGSQAO5-Q
- Vers 2:40 dans la vidéo, ils parlent de « jardin d’enfants pour robots », une perspective intéressante
  Je me demande si, avec un protocole standard de techniques d’apprentissage, on pourrait crowdsourcer l’apprentissage de nouvelles tâches. Par exemple en permettant aux gens d’enchérir sur les tâches souhaitées, avec une récompense pour ceux qui les résolvent, et des bénéfices pour tout le monde. La longue traîne des tâches est si longue qu’il semble difficile pour un seul labo central de tout couvrir
Google a fait quelque chose de similaire il y a environ un mois, et c’est aussi passé sur HN [1]
Je me demande dans quelle mesure ils utilisent le retour de force. Le gros objet rond et mou de la vidéo est-il une sorte de grand doigt rempli de capteurs de pression ? Les capteurs de pression de surface existent depuis les années 1980, mais à l’époque on ne savait pas quoi faire de toutes ces données. Aujourd’hui, avoir trop de données de capteurs est un problème bien moins important
J’avais déjà essayé de m’attaquer à ce problème en montant une clé polygonale au bout d’un bras robotique. L’idée était de tâtonner pour trouver la tête du boulon, d’y engager la clé, puis de tourner. Un capteur de force à 6 degrés de liberté suffisait, mais c’était avant le deep learning, donc ça n’est pas allé très loin. J’ai quand même construit le dispositif robotique avec la clé
[1] https://news.ycombinator.com/item?id=37167698
- Cet objet mou est en fait un ballon gonflé avec une caméra à l’intérieur, qui observe les déformations du ballon : https://punyo.tech
Vraiment impressionnant. Ça l’est même bien plus que les démonstrations de Boston Dynamics.
Retourner une crêpe est très difficile, parce que chaque crêpe est différente. Je sais que ce genre de vidéo montre des séquences sélectionnées, mais entraîner un robot à faire ça uniquement à partir de démonstrations simples donne l’impression d’un bond énorme.
- Retourner une crêpe, ça se faisait déjà en 2010. Ce qui paraît impressionnant aux humains est facile pour les robots, et l’inverse est tout aussi vrai : https://youtu.be/W_gxLKSsSIE?si=HDyNXe1Ys_eFXiVU
  Autre exemple : le jonglage robotique existait déjà dans les années 1990, mais aujourd’hui encore aucun robot ne sait ouvrir de manière fiable n’importe quelle porte comme un humain. C’est une sorte de paradoxe de Moravec.
- Pour le dire comme le grand public : la manière la plus efficace d’entraîner ce genre de robot, c’est de lui faire ingérer des dizaines de milliards de vidéos montrant comment faire la tâche ?
- Je pensais que les emplois de travail manuel seraient à l’abri pendant très longtemps, mais ce ne sera peut-être pas le cas. J’espère que les responsables politiques réfléchissent sérieusement à ce à quoi ressemblera un monde où les gens n’auront plus rien à faire.
Ça ressemble à des travaux comme PaLM-E de Google : https://blog.research.google/2023/03/palm-e-embodied-multimodal-language.html
C’est vraiment une période passionnante pour la robotique.
- Ça a l’air bien meilleur que PaLM-E. Le robot utilisé est plus capable, et les tâches sont beaucoup plus complexes.
  En plus, il exécute les actions à la même vitesse que lorsqu’un humain les montre en le pilotant. Les démonstrations de PaLM-E étaient en réalité douloureusement lentes, et toutes présentées en vidéo accélérée.
Je pense que la façon d’arriver à des robots humanoïdes généralistes ressemblera assez à ça.
Par exemple, imaginons un robot humanoïde façon Boston Dynamics sur un chantier, disons ici comme maçon. Hors du chantier, dans un espace ouvert, il y aurait un sol de type tapis roulant omnidirectionnel, des caméras et capteurs de profondeur tout autour, et une personne porterait une combinaison de motion capture façon Hollywood et un casque VR pour voir ce que voient les caméras du robot.
Cette personne marcherait jusqu’à une pile de briques comme elle le ferait sur le chantier, les prendrait et les poserait. Le robot bougerait en temps réel sur le chantier, en imitant les gestes de la personne. Je ne sais pas s’il faudrait des accessoires pour bien faire, ou si des années de mémoire musculaire acquise sur les chantiers suffiraient.
Toutes les données seraient enregistrées, et quelqu’un regarderait le flux vidéo pour étiqueter chaque action effectuée. Ensuite, on mettrait tout ça dans un algorithme de machine learning, jusqu’à finir par atteindre le point où il suffirait d’envoyer les plans de construction au robot et de lui dire : « construis ce mur ».
- Les trois premiers quarts ressemblent presque exactement au film Sleep Dealer de 2008, au point que je pensais que c’était une référence.
- Pourtant, à ma connaissance, il n’existe pas encore de mise en œuvre mature de ce genre, même avec des équipements aux mouvements beaucoup plus grossiers, vaguement mappés physiquement sur ceux d’un opérateur humain. Par exemple des engins comme des excavatrices commandées avec deux joysticks.
- À court terme, peut-être, mais à long terme je ne pense pas.
  On enverra probablement une équipe numériser le chantier et créer un jumeau numérique. L’architecte y mappera tout, et le système informatique simulera les étapes de construction. Ensuite, on enverra les robots sur le chantier et, si nécessaire, ils recevront un modèle affiné pour construire automatiquement.
- J’ai déjà lu un roman ou une nouvelle avec ce concept. Le robot était piloté sur site pour apprendre, puis plus tard il était laissé autonome. Je ne me souviens pas du reste de l’intrigue ni de l’auteur.
- Oui, ça s’appelle l’apprentissage par renforcement.
Si je comprends bien, on parle de « grands modèles de langage » parce que, grâce à l’immense quantité de textes provenant de tout le Web, de la Library of Congress, etc., les LLM disposent d’un énorme jeu de données pour s’entraîner. Le terme « grand » renvoie à cet aspect.
Mais dans cette vidéo, quand ils parlent de « grand modèle comportemental », qu’est-ce qui est grand exactement ? Où obtient-on une quantité tout aussi énorme de données d’actions en entrée ? On dirait qu’il y a des dizaines de personnes dans un grand labo qui font des démonstrations de gestes ; c’est bien, mais cette équipe ne semble pas pouvoir produire autant de données que l’ensemble des contenus textuels numériques.
Ça a l’air plutôt cool, mais je ne sais pas trop comment quelqu’un peut être à la fois professeur à temps plein au MIT et vice-président à temps plein chez TRI.
J’ai déjà vu ce genre de double poste, mais j’ai du mal à comprendre comment c’est praticable sans travailler plus de 70 heures par semaine.
- Probablement que, même en travaillant 40 heures ou moins par semaine, la personne est tellement experte dans son domaine que ses 10 heures de travail ne peuvent pas être remplacées par le temps plein de quelqu’un d’autre.
  Pour prendre une analogie avec le génie logiciel, on serait prêt à donner à John Carmack un bon salaire et un bon rôle même s’il ne travaillait que 6 ou 7 jours par mois sur un projet. Parce que c’est John Carmack.

Toyota Research Institute affirme avoir franchi une étape majeure pour enseigner de nouveaux comportements aux robots

Accélérer l’apprentissage des comportements robotiques avec Diffusion Policy

Plus de 60 compétences apprises sans nouveau code

Plateforme personnalisée et conception de la sécurité basée sur Drake

À lire aussi

1 commentaires

Avis sur Hacker News