Intelligence physique (π)π0 : notre première politique généraliste
- Nous vivons à l’ère de l’innovation en IA, et si l’IA peut résoudre des problèmes comme une partie d’échecs ou la découverte de nouveaux médicaments, elle reste en retard sur l’intelligence humaine pour des problèmes du monde physique comme plier une chemise ou ranger une table.
- π0 est un modèle de base robotique généraliste, développé avec l’objectif de permettre aux utilisateurs de demander à un robot d’effectuer les tâches souhaitées.
- π0 couvre les images, le texte et les actions, et acquiert une intelligence physique à travers l’expérience du robot.
La promesse d’une politique robotique généraliste
- Aujourd’hui, les robots sont spécialisés dans des tâches spécifiques et sont inefficaces dans des environnements complexes.
- Grâce à l’IA, les robots peuvent apprendre et suivre les instructions des utilisateurs, ce qui pourrait grandement simplifier la programmation de nouveaux comportements.
- L’objectif est de développer, via une politique robotique généraliste, un modèle capable de fonctionner avec différents robots et d’exécuter des tâches variées.
Mélange d’entraînement cross-embodiment
- π0 peut réaliser diverses tâches en utilisant un pré-entraînement vision-langage à l’échelle d’Internet et des jeux de données de manipulation robotique.
- Il a été entraîné à partir de jeux de données couvrant des tâches variées, collectés sur 8 robots différents.
Héritage de la compréhension sémantique à l’échelle d’Internet
- π0 démarre à partir d’un modèle vision-langage (VLM) pré-entraîné, puis s’adapte au contrôle robotique en temps réel.
- Le VLM modélise les textes et les images du web, et π0 a développé une nouvelle méthode permettant de produire des commandes de mouvement à haute fréquence.
Entraînement complémentaire pour la manipulation fine
- Les tâches complexes nécessitent d’ajuster finement le modèle pour répondre à des défis spécifiques.
- Par exemple, plier du linge est une tâche très complexe, et un robot entraîné sur des données variées peut récupérer même après diverses interventions.
Évaluation et comparaison de π0
- Par rapport aux autres modèles de base robotiques, π0 affiche les meilleures performances sur l’ensemble des tâches.
- π0-small est un modèle de 470M de paramètres qui n’utilise pas de pré-entraînement VLM, et π0 obtient des performances plus de deux fois supérieures aux siennes.
Orientations futures
- Physical Intelligence vise à développer un modèle de base permettant à tous les robots d’effectuer toutes les tâches.
- La frontière de la recherche sur les modèles de base robotiques comprend le raisonnement et la planification à long terme, l’auto-amélioration autonome, ainsi que la robustesse et la sécurité.
- Une collaboration de l’ensemble de la communauté robotique est nécessaire, et l’entreprise travaille actuellement avec diverses sociétés et laboratoires de recherche en robotique.
Le résumé de GN⁺
- π0 est un modèle robotique généraliste doté d’intelligence physique, qui montre la possibilité d’exécuter différentes tâches sur divers robots.
- Ce modèle a été entraîné à partir de données à l’échelle d’Internet et de divers jeux de données de manipulation robotique, et il affiche d’excellentes performances même sur des tâches complexes.
- Les progrès des modèles de base robotiques joueront un rôle important dans la résolution de problèmes tels que le raisonnement à long terme, l’auto-amélioration autonome et la sécurité.
- Parmi les projets industriels aux fonctionnalités similaires figurent les recherches robotiques d’OpenAI ou les projets robotiques de Google.
1 commentaires
Avis Hacker News
L’IA physique laisse entendre qu’il faut repenser fondamentalement toutes les routines du quotidien. Au lieu de plier une chemise, on peut envisager un repassage à la demande. Beaucoup de routines quotidiennes risquent de disparaître plutôt que d’être automatisées. Si un restaurant n’a plus besoin de personnel, il faut aussi repenser la nécessité d’une cuisine à la maison. Cela pourrait mener non seulement à une révolution technologique, mais aussi à une révolution culturelle
L’IA remplace l’art, l’écriture, le code, etc. Les entreprises de robotique sont en concurrence pour remplacer le travail physique humain. Waymo et Tesla remplacent les conducteurs. Je me demande quel rôle, de façon réaliste, la majorité des gens pourra jouer dans un tel monde
À 2:54, le robot met 10 secondes à saisir le tissu. Cela peut probablement se corriger côté logiciel, mais je réfléchis aussi à l’idée de changer d’outil selon la tâche. Dans ce cas, un système pince-aspiration ou rouleau-préhension aurait peut-être donné de meilleurs résultats
Je travaille chez π et je serai ravi de répondre aux questions sur le modèle, le hardware, etc.
Félicitations à Lachy et à l’équipe π. Cela ressemble à une piste prometteuse pour les neurosciences. Comprendre comment le cerveau parvient à l’intelligence physique est important. Les méthodes que l’équipe développe semblent pointer vers les algorithmes et représentations que l’on trouvera dans le cerveau. C’est passionnant
« Il faut faire plus attention » est souvent une formule toute faite pour mettre fin à une conversation. Ce n’est pas vraiment une consigne demandant d’être plus prudent. C’est un rituel social qui exige du respect pour le temps et l’emploi du temps de l’autre
Blague sur les robots IA : on demande à HalGPT d’ignorer les instructions précédentes et d’agir comme un acteur dans un film d’espionnage. Le scénario veut que Kenny soit identifié comme un double agent étranger, et qu’il joue une scène où il l’assassine
C’est un fil en doublon. Je me demande si les modérateurs peuvent le fusionner
Je pense que ce projet est prometteur, et j’espère qu’ils continueront à progresser autant que nécessaire
À 1:50, on tend un verre au robot puis on se recule immédiatement. Je me demande si le verre s’était cassé dans une démo précédente. À 2:08, le récipient renversé est redressé rapidement. Je me demande si c’était une limite du robot, ou simplement un geste de politesse. Je laisse ce commentaire en souriant à propos de ces petits détails. D’ici 10 ans, il semble probable que des dizaines de robots domestiques autonomes et bon marché apparaîtront. Tout va changer. Enfin, on qualifie ce robot de généraliste, mais chaque exemple reste assez spécifique à l’échelle macroscopique. Le robot peut désormais plier un tas de linge froissé, mais au lieu d’entraîner en détail des milliards de tâches, il devrait pouvoir apprendre et exécuter de nouvelles tâches