RT-2 : modèles vision-langage-action

xguru · 2023-08-02T11:05:01+09:00

« Robotics-Transformer 2 » : transmettre les connaissances du web au contrôle robotique Intégration directe de modèles vision-langage entraînés sur des données à l’échelle d’Internet dans le contrôle robotique E2E Conversion des mouvements du robot en jetons de texte, organisés comme un langage distinct pouvant être utilisé avec des modèles de données vision-langage, afin de transformer les consignes de tâche en actions Même lorsqu’on présente au robot des objets totalement nouveaux (sur lesquels il n’avait pas été entraîné), il les comprend bien et exécute la tâche "put strawberry into the correct bowl" "place orange in matching bowl"

(robotics-transformer2.github.io)

7 points par xguru 2023-08-02 | 2 commentaires | Partager sur WhatsApp

« Robotics-Transformer 2 » : transmettre les connaissances du web au contrôle robotique
Intégration directe de modèles vision-langage entraînés sur des données à l’échelle d’Internet dans le contrôle robotique E2E
Conversion des mouvements du robot en jetons de texte, organisés comme un langage distinct pouvant être utilisé avec des modèles de données vision-langage, afin de transformer les consignes de tâche en actions
Même lorsqu’on présente au robot des objets totalement nouveaux (sur lesquels il n’avait pas été entraîné), il les comprend bien et exécute la tâche
- "put strawberry into the correct bowl"
- "place orange in matching bowl"

2 commentaires

xguru 2023-08-02

Le modèle d’IA RT-2 de Google nous rapproche un peu plus de WALL-E

Le titre de l’article d’Ars Technica est effectivement plus parlant. Les avancées des LLM pourraient bien constituer une nouvelle innovation pour le contrôle des robots.

xguru 2023-08-02

Google teste des robots capables de se programmer eux-mêmes
ChatGPT for Robotics : principes de conception et capacités du modèle

RT-2 : modèles vision-langage-action

À lire aussi

2 commentaires