π0, la première politique robotique généraliste de Physical Intelligence, va jusqu’à plier le linge en démonstration

(physicalintelligence.company)

1 points par GN⁺ 2024-11-12 | 1 commentaires | Partager sur WhatsApp

Physical Intelligence a présenté π0 (pi-zero), un modèle de fondation robotique généraliste qui permet à des robots d’exécuter diverses tâches physiques à partir d’instructions textuelles
π0 est entraîné à partir d’un préentraînement vision-langage à l’échelle d’Internet, de l’Open X Embodiment Dataset et de données de tâches de dextérité collectées sur 8 types de robots
Le modèle traite conjointement images, texte et actions, et génère des commandes moteur jusqu’à 50 fois par seconde grâce à une sortie d’actions continues fondée sur le flow matching
Après post-entraînement, il peut accomplir des tâches de manipulation complexes dont l’état varie à chaque fois, comme plier du linge, débarrasser une table ou assembler une boîte
Sur 5 tâches d’évaluation, π0 affiche une performance moyenne supérieure à OpenVLA, Octo et π0-small, mais le raisonnement et la planification à long terme, l’amélioration autonome, la robustesse et la sécurité restent les prochains défis

La politique robotique généraliste visée par π0

Physical Intelligence a développé au cours des 8 derniers mois π0 (pi-zero), un modèle de fondation robotique généraliste
L’objectif est de permettre à un utilisateur de dire à un robot la tâche qu’il souhaite, comme il le ferait avec un LLM ou un chatbot, puis de laisser le robot l’exécuter dans le monde physique
Comme un LLM, π0 est entraîné sur des données vastes et variées et suit des instructions textuelles, mais contrairement aux LLM, il traite conjointement images, texte et actions
Le modèle apprend l’intelligence physique à partir de l’expérience incarnée des robots et produit directement des commandes moteur de bas niveau grâce à une nouvelle architecture
Il peut contrôler plusieurs robots, recevoir une tâche à accomplir sous forme de prompt, ou être fine-tuné pour des scénarios d’application difficiles

Pourquoi dépasser l’automatisation étroite

Aujourd’hui, les robots restent cantonnés à des domaines spécialisés étroits
- Les robots industriels sont programmés pour des gestes répétitifs sur les chaînes d’assemblage, comme souder toujours au même endroit ou placer le même objet dans la même boîte
- Même ces gestes simples demandent beaucoup d’ingénierie manuelle
- Réaliser des actions plus complexes dans des environnements réels désordonnés, comme à la maison, est bien plus difficile
Pour que les robots apprennent et suivent les instructions des utilisateurs, il faut des données à grande échelle
- Les modèles de langage et autres modèles de fondation exploitent d’immenses volumes de documents issus du Web
- Les données robotiques ne disposent pas d’un dépôt de grande taille équivalent
- Pour enseigner une nouvelle compétence, il faut collecter beaucoup de données adaptées à un robot et à une application spécifiques
Si une unique politique robotique généraliste peut couvrir plusieurs compétences et plusieurs robots, elle peut réduire la quantité de données nécessaire pour chaque robot et chaque application
De la même manière que les modèles de langage ont remplacé des systèmes spécialisés de traitement du langage grâce à un préentraînement varié, une politique robotique généraliste devient un modèle de fondation robotique pour l’intelligence physique

Données d’entraînement et configurations robotiques

π0 est le premier prototype de politique robotique généraliste entraîné à ce jour sur le plus grand jeu de données d’interactions robotiques
Le mélange d’entraînement complet comprend des données open source et des données de tâches de dextérité collectées par Physical Intelligence sur 8 types de robots
Composition des données d’entraînement
- Open X Embodiment Dataset
- Préentraînement à l’échelle d’Internet
- π Dataset, composé de plusieurs robots de dextérité
- Les configurations robotiques incluent notamment UR5e, Bimanual UR5e, Franka, Bimanual Trossen, Bimanual Arx, Mobile Trossen et Mobile Fibocom
Types de tâches inclus
- Débarrasser des assiettes
- Mettre des objets dans un sac
- Plier des vêtements
- Router des câbles
- Assembler des boîtes
- Brancher une prise électrique
- Mettre de la nourriture dans une boîte à emporter
- Ramasser et jeter des déchets
- L’objectif du choix des tâches n’est pas de résoudre une application particulière, mais de fournir au modèle une compréhension générale des interactions physiques

Compréhension sémantique à l’échelle d’Internet et sortie d’actions continues

Tout en étant entraîné sur des données issues de plusieurs robots, π0 hérite des connaissances sémantiques et de la compréhension visuelle d’un modèle vision-langage (VLM) préentraîné
Les VLM sont entraînés à modéliser textes et images du Web ; GPT-4V et Gemini en sont des exemples largement utilisés
π0 part d’un VLM plus petit de 3 milliards de paramètres et l’adapte au contrôle robotique de dextérité en temps réel
Un VLM peut transmettre les connaissances sémantiques acquises sur le Web, mais il ne produit à l’origine que des tokens de langage discrets
La manipulation robotique de dextérité nécessite une sortie de commandes moteur à haute fréquence
- π0 doit produire des commandes moteur jusqu’à 50 fois par seconde
- Pour cela, il ajoute une sortie d’actions continues au VLM préentraîné via flow matching, une variante des modèles de diffusion
Le modèle final est un modèle vision-langage-action à flow matching, ensuite post-entraîné sur des données robotiques de haute qualité pour résoudre plusieurs tâches en aval

Tâches de dextérité traitées par post-entraînement

Les tâches plus complexes et demandant davantage de dextérité peuvent nécessiter de fine-tuner le modèle pour une tâche en aval
Le processus de fine-tuning sur une tâche difficile avec des données de haute qualité ressemble au post-entraînement utilisé dans la conception des LLM
Le préentraînement enseigne au modèle le monde physique, tandis que le fine-tuning le rend performant sur une tâche spécifique
Pliage du linge
- π0 a été fine-tuné pour la tâche de pliage du linge à l’aide d’un robot mobile ou d’un robot fixe à deux bras
- L’objectif est de transformer les vêtements en une pile nette
- Un t-shirt posé à plat sur une table peut parfois être plié par une séquence de mouvements prédéfinie
- Un tas de linge emmêlé est froissé de manière différente à chaque fois, si bien que répéter les mêmes mouvements de bras ne suffit pas
- Après post-entraînement, le robot peut sortir des vêtements d’un sèche-linge, les apporter sur une table et les plier en pile
- La vidéo montre une scène non montée où une seule politique fonctionne de manière entièrement autonome
- Grâce à l’entraînement sur des données variées, le robot a pu se rétablir même lorsque des humains tentaient d’intervenir de plusieurs façons
- À la connaissance de Physical Intelligence, aucun système robotique précédent n’avait exécuté cette tâche avec un tel niveau de complexité
Débarrassage de table
- π0 a aussi été fine-tuné pour débarrasser des assiettes et des déchets sur une table
- Les assiettes, couverts et gobelets sont placés dans un bac de débarrassage, tandis que les déchets vont à la poubelle
- Cette tâche nécessite de gérer des objets très variés
- L’entraînement sur des données massives et diverses fait émerger plusieurs stratégies
- Au lieu de saisir les objets un par un, le robot peut empiler plusieurs assiettes et les déposer ensemble
- Avant de mettre une assiette dans le bac de débarrassage, il peut la secouer pour faire tomber les déchets dessus dans la poubelle
Assemblage de boîtes
- Il faut plier et redresser une boîte en carton ondulé à plat, rabattre les côtés, puis insérer les rabats
- Chaque étape de pliage et d’insertion peut échouer de façon inattendue, le robot doit donc observer l’avancement et ajuster ses actions
- Il doit utiliser ses deux bras et la table pour soutenir la boîte afin d’éviter qu’une boîte partiellement pliée ne se déplie à nouveau

Comparaison d’évaluation avec OpenVLA et Octo

π0 a été comparé à OpenVLA et Octo, des modèles de fondation robotiques proposés par le monde académique
OpenVLA est un modèle VLA de 7 milliards de paramètres utilisant des actions discrétisées
Octo est un modèle de 93 millions de paramètres utilisant une sortie par diffusion
Les tâches d’évaluation sont conçues pour être plus complexes que les expériences académiques habituelles
- Les tâches de l’évaluation d’OpenVLA sont généralement des actions en une seule étape comme « mettre une aubergine dans une casserole »
- Même la tâche de débarrassage de table la plus simple dans l’évaluation de π0 exige de trier plusieurs objets entre poubelle et bac de débarrassage
- Les tâches plus complexes exigent plusieurs étapes, la manipulation d’objets déformables et le choix de différentes stratégies selon l’état de l’environnement
L’évaluation utilise une grille qui attribue 1,0 point pour une réussite complète et un score partiel pour une exécution partiellement correcte
- Par exemple, débarrasser la moitié des objets donne 0,5 point
Résultats des 5 tâches d’évaluation
- Bussing Easy (UR5e)
  - π0 : 0,971
  - π0-small : 0,443
  - OpenVLA : 0
  - OpenVLA (UR5e only) : 0,343
  - Octo : 0,043
- Bussing Hard (UR5e)
  - π0 : 0,875
  - π0-small : 0,333
  - OpenVLA : 0
  - OpenVLA (UR5e only) : 0
  - Octo : 0
- Shirt Folding (Bi-ARX)
  - π0 : 1,000
  - π0-small : 0,500
  - OpenVLA : 0
  - OpenVLA (UR5e only) : 0
  - Octo : 0
- Grocery Bagging (UR5e)
  - π0 : 0,786
  - π0-small : 0,271
  - OpenVLA : 0
  - OpenVLA (UR5e only) : 0
  - Octo : 0
- Toast out of Toaster (Bi-Trossen)
  - π0 : 0,750
  - π0-small : 0
  - OpenVLA : 0
  - OpenVLA (UR5e only) : 0
  - Octo : 0
- π0-small est un modèle de 470 millions de paramètres qui n’utilise pas de préentraînement VLM
- OpenVLA et Octo n’obtiennent des performances non nulles que sur la tâche la plus facile, « Bussing Easy », tandis que π0 affiche les meilleures performances sur l’ensemble des tâches
- L’utilisation de l’architecture complète et du préentraînement VLM améliore les performances de π0 de plus de 2× par rapport à π0-small

Défis restants et pistes de collaboration

L’objectif de Physical Intelligence est de développer un modèle de fondation capable de contrôler n’importe quel robot pour exécuter n’importe quelle tâche
Les expériences actuelles montrent qu’il est possible de contrôler plusieurs robots et d’accomplir des tâches que les précédents systèmes d’apprentissage robotique ne réalisaient pas avec succès, comme plier des vêtements depuis un panier à linge ou assembler des boîtes en carton ondulé
Les politiques robotiques généralistes en sont encore à leurs débuts, et plusieurs fronts de recherche restent ouverts
- Raisonnement et planification à long terme
  - Amélioration autonome
  - Robustesse
  - Sécurité
  - Physical Intelligence collabore avec plusieurs entreprises et laboratoires de robotique
  - L’entreprise améliore la conception de matériel pour la téléopération et l’autonomie
  - Elle cherche à intégrer les données de partenaires dans le modèle préentraîné afin de fournir un accès à des modèles adaptés à des plateformes spécifiques
  - Elle s’intéresse à des collaborations avec des entreprises qui étendent la collecte de données à partir de robots déployés dans des applications réelles

1 commentaires

GN⁺ 2024-11-12

Avis de Hacker News

L’objectif implicite semble être de remplacer la lessive et les autres tâches ménagères. La satisfaction humaine pourrait bien finir par se jouer là
L’économie et les indicateurs de valeur portent au fond sur le bonheur/la satisfaction des humains, et l’argent a de la valeur parce que les gens le désirent. Quand les gens deviennent assez riches, ils externalisent les tâches domestiques en embauchant une femme de ménage ou un cuisinier, ou en achetant des plats préparés
Ces 50 dernières années, les entreprises occidentales ont bénéficié d’un coup de pouce gratuit avec l’entrée des femmes sur le marché du travail : là où l’on versait auparavant à une personne de quoi faire vivre un foyer, on verse désormais le même coût d’entretien du foyer réparti entre deux personnes, tout en obtenant deux fois plus de travailleurs
Résultat, la plupart des foyers ont perdu 35 heures par semaine, alors que la charge de travail domestique est restée la même. On ne peut pas donner une femme de ménage à tout le monde, mais on pourra peut-être donner une bonne robotisée à chacun
Comme la brique, le chauffage ou l’électricité, la plupart des innovations et technologies finissent par entrer dans la maison et rendre la vie plus confortable. Je pensais qu’une vraie bonne robotisée arriverait via des changements sociaux comme une évolution de la conception des machines à laver, le fait de manger tous les jours chez les autres, ou des surfaces anti-poussière, mais ce robot a l’air assez intéressant
Je sais que ce point de vue est centré sur la classe moyenne occidentale, mais je me demande ce que 6 milliards de personnes pourraient bien viser d’autre, au fond
- Je ne vois pas d’où l’économie aurait tiré un coup de pouce quand les femmes sont entrées sur le marché du travail. Le miracle économique d’après-guerre en Allemagne s’est produit en grande partie sans les femmes
  Quand davantage de femmes sont entrées sur le marché du travail au début des années 1970, les conditions macroéconomiques étaient mauvaises à cause du choc pétrolier, donc c’est difficile à isoler
  Malgré tout, quand le nombre de travailleurs augmente, cela a plutôt tendance à faire baisser les salaires et à créer davantage de bullshit jobs. Il est évident que les hommes aussi créent et occupent des bullshit jobs
  Désormais, il faut deux salaires pour assumer un logement et une famille. Quel progrès formidable
  Au supermarché, même quand la file est longue, je boycotte les caisses automatiques pour que les caissiers sympathiques puissent continuer à travailler
- Le véritable objectif sous-jacent est peut-être de coucher avec des robots. Comme Internet, dont on disait qu’il serait la porte d’accès à tout le savoir, mais qui a fini par servir au porno
- Si la demande de travail est fixe, alors quand l’offre de travail homme+femme d’un foyer double, les salaires peuvent en principe baisser. Mais la demande n’a pas besoin d’être fixe
  J’aimerais appeler cela la théorie des chaises musicales de l’emploi. Si la population en âge de travailler double entre 1954 et 2024, cela signifie-t-il que chacun gagne moins ? Si des immigrés arrivent, cela signifie-t-il que pour chaque immigré, un natif perd son emploi ?
  Les preuves disent que non, et l’économie connaît aussi d’autres changements qui augmentent la demande de travail. La littérature sur l’effet de l’immigration sur le chômage et les salaires, surtout en cas de choc important à court terme, est assez claire
  Je ne connais pas bien les études sur l’effet de l’augmentation de l’emploi des femmes. Comme le phénomène s’est produit lentement sur plusieurs décennies, j’imagine qu’il est bien plus difficile à étudier. Et ce n’est pas propre à l’Occident : cela s’est produit dans de nombreuses régions du monde
- L’équipe de Physical Intelligence est excellente, mais je ne pense pas qu’elle parviendra à lever assez d’argent pour atteindre son objectif. Le problème, c’est de dire que développer une telle technologie coûte 30 millions de dollars, alors qu’en réalité il faudra au minimum 1 milliard de dollars, probablement plutôt près de 5 milliards
Dans les usines ou les environnements fermés, les choses s’améliorent rapidement, mais dans le reste du monde réel, il n’existe pas de robots ou d’IA pratiques sans supervision humaine. Travailler à l’automatisation de choses physiques m’en a convaincu
La première chose que fera ce robot pourrait être de lancer un sèche-linge avec un enfant en bas âge à l’intérieur, faute de compréhension du monde
Et cela signerait la fin des robots domestiques généralistes. Ou bien il pourrait renverser une bougie, ou rater quelque chose qui paraît anodin mais qui, dans le contexte, devient terriblement dangereux
Moi aussi je rêve d’une machine généraliste, mais c’est peut-être impossible, et même si c’est possible, on en est encore très loin
- Je me souviens avoir vu beaucoup de commentaires sur HN prédire avec assurance que dès qu’une voiture autonome tuerait quelqu’un dans un accident, ce serait la fin des voitures autonomes
  Il y a effectivement eu des accidents, suivis de procès et d’enquêtes des régulateurs, mais cela n’a pas mis fin au secteur. Je m’attends à ce que la prochaine administration américaine réduise nettement les obstacles juridiques et réglementaires à l’extension des robots et de l’automatisation
- Même si une supervision est nécessaire, regarder un robot étendre le linge pour le faire sécher est préférable à le faire soi-même
  Comme dit le vieux dicton : « J’adore le travail. Je pourrais le regarder toute la journée »
- Au début, pourquoi ne pas installer une caméra et faire vérifier l’environnement avant l’opération par quelqu’un à l’étranger ? Ce serait bon marché et plus sûr
- D’accord. Jusqu’à présent, je n’ai même pas vu de robots capables d’effectuer au niveau de la production des travaux agricoles relativement simples comme cueillir des tomates et entretenir des plantes dans une serre
  Tout cela est fait par de la main-d’œuvre étrangère bon marché. Si même ce niveau est difficile à automatiser, il est encore difficile d’avoir de grandes attentes pour un robot domestique généraliste
  Cela dit, les vidéos de cet article semblent assez prometteuses, et j’aimerais voir comment cette technologie fonctionnerait dans une serre
- Ce serait exactement comme les montagnes russes, qui ont été interdites dès qu’une seule panne a tué quelques personnes, n’est-ce pas
Le vrai problème difficile d’un robot à linge, ce n’est pas de plier les vêtements, c’est d’entrer dans la buanderie.
Quand on vit dans une ville européenne, l’espace est la principale contrainte. À Paris, le loyer est de 30 €/m² par mois.
Les buanderies sont petites, et ce robot est trop large : il ne passerait pas la porte de la mienne. Ce n’est pas pour rien que les planches à repasser sont pliantes : il faut les installer à chaque fois. Ce robot ne sait même pas faire ça, et il ne saurait pas non plus manipuler une bouteille d’adoucissant pour machine à laver.
Garder une table vide de 1 m² dédiée au pliage est une illusion pour la plupart des gens. Les laveries existent aussi parce que certains logements n’ont même pas la place pour une machine à laver.
La buanderie est une pièce séparée à cause de l’humidité et de la ventilation, et dans des logements généralement conçus il y a plus de 30 ans, elle a probablement été placée de manière à être aussi petite que fonctionnellement possible, pas avec l’accessibilité des robots en tête.
Même les gens qui vivent dans des maisons plutôt que des appartements ont souvent une buanderie au sous-sol, accessible uniquement par des escaliers ou des seuils.
Alors que les robots bipèdes sont déjà à nos portes, je ne pense pas que les architectes et les normes d’accessibilité dans la construction évolueront assez vite. L’espace libre nécessaire à l’arrivée de robots domestiques a déjà été consommé plusieurs fois, à cause du coût élevé de l’espace.
- Si on fait défiler vers le bas, on voit que c’est un robot généraliste. Il peut se déplacer, débarrasser une table ou plier des cartons.
  Il est difficile d’affirmer qu’il ne peut pas manipuler de l’adoucissant, et la V2 pourrait très bien être capable d’installer une planche à repasser.
  Côté taille, il est déjà plus petit qu’un réfrigérateur, un lave-linge, un lave-vaisselle et bien d’autres appareils qui font gagner du temps. Bien sûr, il ne conviendra pas forcément aux villes historiques remplies de maisons vieilles de plusieurs siècles, mais dans la plupart des logements, ce sont des appareils courants.
  Il n’y a pas encore eu non plus d’effort pour réduire sa taille. Une fois sorti du stade de prototype de recherche, une ingénierie astucieuse pourrait peut-être le rendre beaucoup plus compact.
  L’autre question, c’est le coût. Ce genre de robot tourne généralement autour de 100 000 dollars, et ce n’est pas sans raison. Peut-on faire baisser ce prix ? Je l’espère.
- Les laveries sont assez agaçantes, parce qu’il faut rester près de deux heures sur place pour une tâche de cinq minutes que la machine ne fait pas à votre place.
  À l’inverse, confier son linge à un service de lavage-pliage est un luxe coûteux. Si les laveries pouvaient automatiser tout le processus, le prix du lavage-pliage baisserait, et moins de gens voudraient garder chez eux une machine qu’ils n’utilisent que quelques heures par semaine.
  Ou alors on pourrait adosser les laveries à des cafés ou des bars, et transformer les tâches ménagères en occasions de détente et de sociabilité. Mais la majeure partie du monde n’est pas encore prête pour un tel degré de civilisation.
- Je ne comprends pas pourquoi on pense que des gens qui n’ont pas les moyens d’avoir un appartement confortable et leur propre machine à laver utiliseraient un robot à linge.
  À mon avis, cela finira par être intégré au lave-linge, sous forme d’un seul appareil où l’on met des vêtements sales et d’où l’on ressort des vêtements propres et pliés. Le lave-linge actuel lui-même n’est pas composé de pièces si coûteuses qu’il faille absolument conserver sa forme séparée actuelle.
- À Paris, 30 €/m² par mois ne concerne que les appartements assez grands.
  Un appartement de 20 m² ne se trouve pas à moins de 850 €, soit environ 42 €/m². Évidemment, un tel logement est trop petit même pour accueillir une machine à laver, sans parler d’un robot qui plie le linge.
Avec juste un peu plus de précision, cela deviendrait un excellent outil d’automatisation de laboratoire. Des laboratoires du monde entier seraient prêts à payer 1 million de dollars pour un robot capable de prendre en charge les expériences manuelles.
Le travail de laboratoire n’est pas si difficile. Beaucoup de tâches reposent sur des protocoles établis, avec des étapes bien définies. Un robot capable de saisir des objets et d’effectuer du travail sur des éprouvettes sans programmation spécifique serait, à mon avis, un produit énorme.
- Je suis d’accord. Ma petite amie a un diplôme en biochimie et travaille dans ce type de laboratoire. Son travail comprend la collecte d’échantillons, la préparation, la saisie, la maintenance de base des équipements, certaines analyses, ainsi que des tâches administratives et de secrétariat comme entrer les résultats dans le système ou appeler un médecin.
  À mes yeux, tout cela est automatisable.
  Mais cela dépend fortement de la région. Aux États-Unis, cela pourrait devenir pertinent assez vite, mais ma petite amie vit dans un petit pays de l’UE où les salaires ne sont pas élevés, et ce poste est un poste junior très recherché par les étudiants. Il coûte environ 25 000 dollars par an.
  Investir 1 million de dollars pour remplacer un flux de trésorerie de 25 000 dollars par an donne une valeur actuelle nette négative avec un taux d’actualisation classique. En revanche, remplacer un salaire de 120 000 dollars par un robot à 1 million de dollars commence à avoir du sens.
  Je pense aussi qu’il restera des emplois de supervision des robots. Dans de grands sites de production centralisés, une personne peut superviser plusieurs robots, ce qui est cohérent, mais ce n’est pas forcément le cas dans de petits sites dispersés. Beaucoup de laboratoires doivent rester proches de leurs clients à cause de la sensibilité temporelle des tâches, d’où cette organisation. Bien sûr, cela peut changer.
- Il vaut mieux ne pas trop s’emballer. Pour un robot généraliste, même visser un écrou sur un boulon est un gros problème.
  Au final, il faudra des laboratoires compatibles avec les robots, où tout peut être fait avec des mains robotisées primitives. Les autres options sont de fabriquer des mains plus capables, ou de créer des laboratoires spécialisés entièrement robotisés.
  La première option est la plus intéressante et la bonne direction à suivre. Si elle devient possible, elle ouvrira beaucoup de perspectives, comme des véhicules à « auto-réparation » ou des bases planétaires. Il suffirait d’avoir un robot « technicien » embarqué.
- Ce type de produit d’automatisation de laboratoire existe déjà, et plusieurs startups du secteur se heurtent finalement au même vent contraire que tous ceux qui doivent vendre du matériel alors que ce pour quoi les gens paient vraiment, c’est le logiciel.
  Les laboratoires universitaires n’achètent pas du matériel expérimental de startup à 1 million de dollars. Un plateau technique mutualisé pour 30 groupes de recherche achèterait quelque chose, mais ce serait un équipement qui mène directement à des publications, autrement dit un équipement ayant déjà fait ses preuves.
  C’est pour cela que le produit dont vous parlez, même s’il existe déjà, n’entre pas dans les laboratoires.
- Beaucoup de substances dans les laboratoires de chimie sont toxiques, voire mortelles pour l’être humain. Si des robots pouvaient les manipuler à notre place, ce serait un gain considérable.
- C’est clairement possible. J’ai un ami qui travaille dans ce domaine, celui de l’automatisation des laboratoires par l’IA, et il s’attend à ce que la concurrence devienne intense d’ici quelques années.
Comparé à un robot humanoïde, celui-ci est assez simple, donc son coût devrait être nettement plus bas. En revanche, je ne comprends pas bien pourquoi ils se concentrent sur le pliage du linge. Beaucoup de gens font-ils la lessive plus d’une fois par semaine ?
Ce serait bien plus utile s’il pouvait faire la cuisine, une tâche qu’on fait au moins une fois par jour.
J’aimerais plutôt voir une vraie innovation dans les lave-linge. La technologie actuelle reste très basique : chauffer de l’eau et faire tourner en continu. Pourquoi ne pas avoir quelque chose qui, un peu comme une grosse imprimante papier, prendrait une chemise, l’entraînerait avec des rouleaux, pulvériserait un minimum d’eau à haute pression, la chaufferait, puis la rendrait 30 minutes plus tard parfaitement repassée ?
- Le linge est une démonstration presque parfaite d’un système avancé de planification de mouvements. Le tissu est pratiquement impossible à traiter avec les paradigmes classiques de planification du mouvement.
  Il est extrêmement non rigide, au point que prévoir son comportement relève de simulateurs de dynamique spécialisés et coûteux, et il est presque impossible de poser la question inverse : quels mouvements faut-il effectuer pour obtenir le résultat voulu ? Même quand la prédiction est possible, c’est un problème très continu qui résiste à la discrétisation.
  On ne peut pas non plus utiliser des hypothèses courantes en raisonnement sur l’origami, comme « la largeur d’un pli est nulle ».
  Les vêtements sont un cas extrême parmi les tissus. Non seulement ils sont très hétérogènes, mais ils sont aussi fragiles : chaque chemise est une structure topologique molle, couverte de textures bizarres et de propriétés locales complexes et imprévisibles. Une petite mauvaise manipulation suffit à faire sauter des coutures. Volants, fermetures éclair, poches, cordons… la liste est sans fin.
  En plus, la lessive est une tâche que tout le monde connaît, donc facile à comprendre, facile à mettre en place en laboratoire, et dont un humain peut évaluer les performances d’un seul coup d’œil de façon intuitive.
  En près de 70 ans de recherche, personne n’a montré de performances vraiment convaincantes, donc c’est une tâche plus difficile que les saltos arrière, les tirs au basket ou le chargement de camions. C’est pourquoi, quand un nouvel algorithme capable de manipuler autre chose que des blocs sur une table apparaît, on finit presque toujours par l’appliquer au linge.
- Plier le linge n’est pas l’objectif final. C’est choisi parce que c’est une tâche très difficile pour un robot, qui exige de la dextérité, de la planification, une réaction aux entrées sensorielles, etc.
  Autrement dit, si un robot peut gérer le linge, il y a de fortes chances qu’on puisse lui apprendre presque toutes les autres tâches domestiques.
- Dès qu’on a ne serait-ce qu’un enfant, la lessive cesse d’être une tâche avec un début et une fin : cela devient un processus continu.
  La cuisine est une activité que beaucoup de gens trouvent profondément gratifiante et humaine. Pas moi, mais je sais que je fais exception. En revanche, il doit être difficile de trouver quelqu’un qui estime qu’il vaut la peine de consacrer son temps limité sur Terre à faire la lessive.
- Beaucoup de gens font aussi 3 ou 4 lessives par semaine. Certains ne cuisinent jamais chez eux. Il y a 8 milliards de personnes dans le monde.
- Parce que les habitants d’Axiom auront besoin de combinaisons propres ?
  Plus sérieusement, plier le linge est une tâche complexe qui demande, du point de vue d’un robot, pas mal de dextérité et une manipulation fine des objets, mais qui présente un risque relativement faible par rapport à la cuisine.
  Si le robot se trompe, il y a peu de chances que cela cause de gros dégâts au robot, à l’environnement ou aux humains à proximité. C’est donc un assez bon sujet de recherche, et si c’est résolu, cela fera aussi une démonstration impressionnante lors d’événements.
Plier le linge est une petite corvée ; le vrai Graal, c’est un bras robotique capable de cuisiner 24 h/24.
Si des bras robotiques arrivent dans tous les fast-foods, restaurants, hôtels, hôpitaux, bases militaires, bateaux de croisière, et partout où l’on prépare de la nourriture, le marché du travail ne s’en remettra pas.
Le grand gagnant pourrait être l’épicerie qui prépare des repas chauds à partir de ses propres produits agricoles et les livre par drone aux maisons voisines. Bien sûr, c’est peut-être excessivement optimiste.
- Il suffira d’envoyer ses recettes préférées au chef robotique le plus proche pour obtenir exactement le plat voulu, à chaque fois.
  À ce stade, les restaurants avec un menu fixe auront-ils encore un sens ?
C’était aussi passé sur HN il y a 9 jours.
https://news.ycombinator.com/item?id=42011770
Travail intéressant.
Je n’avais jamais vraiment réfléchi à ce qu’on pouvait faire, pour des tâches peu sensibles au temps, en cessant d’essayer de faire du traitement temps réel sur les robots et en acceptant de ralentir jusqu’aux latences que les modèles Transformer actuels peuvent gérer sur du vrai matériel.
- Dans Theory of self-reproducing automata (1966), p.72, « Role of High Complication », von Neumann écrit ceci :
  « Un automate ne peut pas être séparé de l’environnement auquel il réagit. »
  « À la surface de la Terre aujourd’hui, les caractéristiques de survie de l’être humain sont bien définies, mais pour la plupart des types humains, il faut préciser un peu plus la situation. Discuter de la manière dont un humain survivrait au fond de la mer ou à 1000 degrés Celsius n’a pas de sens. De même, demander à quelle vitesse ou lenteur fonctionne une machine de calcul n’a pas de sens si l’on ne précise pas quel type de problèmes lui sera soumis. »
Je connais très peu de gens de moins de 40 ans qui plient et repassent leurs vêtements, et je ne sais même pas si je connais quelqu’un de moins de 30 ans qui possède une planche à repasser et un fer. Et même si c’était le cas, ils seraient probablement cassés, ou perdus s’ils ne sont pas cassés.
À mon avis, « faire la lessive » devient obsolète encore plus vite que le fait de laver soi-même son linge. C’est un peu comme lorsque les gens n’ont pas confié à des robots la réparation de vêtements abîmés, mais ont abandonné la couture en jetant les vieux vêtements pour les remplacer par de la fast fashion.
Si ce produit vise les ménages aisés, même si son prix descendait de 100 000 dollars à 1 000 dollars, je ne vois pas vraiment ses chances de succès pour cette raison.
- Les vêtements de fast fashion sont de plus en plus souvent impossibles à repasser. En même temps, il devient aussi de plus en plus difficile d’acheter des vêtements de bonne qualité.
  Sous l’effet de la fast fashion, même des marques de créateurs très chères sortent des pièces comme des manteaux sans doublure ou des pulls fins.
  L’une des raisons est que la chaîne d’approvisionnement des vêtements de bonne qualité s’est fortement réduite. Même si un designer veut se procurer un bon tissu, il doit le payer plus cher qu’avant.
Quelqu’un sur HN le sait peut-être, mais pourquoi ces robots bougent-ils si lentement ? Est-ce pour des raisons de sécurité, ou bien la difficulté augmente-t-elle fortement quand la vitesse augmente ?
- La vitesse ne semble pas être leur première priorité.
- Ils génèrent les mouvements du robot token par token avec un modèle vision-langage. C’est l’inférence VLM qui devient le goulot d’étranglement.

π0, la première politique robotique généraliste de Physical Intelligence, va jusqu’à plier le linge en démonstration

La politique robotique généraliste visée par π0

Pourquoi dépasser l’automatisation étroite

Données d’entraînement et configurations robotiques

Composition des données d’entraînement

Types de tâches inclus

Compréhension sémantique à l’échelle d’Internet et sortie d’actions continues

Tâches de dextérité traitées par post-entraînement

Pliage du linge

Débarrassage de table

Assemblage de boîtes

Comparaison d’évaluation avec OpenVLA et Octo

Résultats des 5 tâches d’évaluation

Défis restants et pistes de collaboration

Raisonnement et planification à long terme

À lire aussi

1 commentaires

Avis de Hacker News