- « Robotics-Transformer 2 » : transmettre les connaissances du web au contrôle robotique
- Intégration directe de modèles vision-langage entraînés sur des données à l’échelle d’Internet dans le contrôle robotique E2E
- Conversion des mouvements du robot en jetons de texte, organisés comme un langage distinct pouvant être utilisé avec des modèles de données vision-langage, afin de transformer les consignes de tâche en actions
- Même lorsqu’on présente au robot des objets totalement nouveaux (sur lesquels il n’avait pas été entraîné), il les comprend bien et exécute la tâche
- "put strawberry into the correct bowl"
- "place orange in matching bowl"
2 commentaires
Le modèle d’IA RT-2 de Google nous rapproche un peu plus de WALL-E
Le titre de l’article d’Ars Technica est effectivement plus parlant. Les avancées des LLM pourraient bien constituer une nouvelle innovation pour le contrôle des robots.
Google teste des robots capables de se programmer eux-mêmes
ChatGPT for Robotics : principes de conception et capacités du modèle