- Les grands modèles de langage peuvent accomplir des tâches complexes, mais pour permettre un raisonnement général dans le monde réel, comme pour les problèmes de robotique, ils doivent être ancrés dans une base concrète
- Proposition d’un EMLM pour intégrer directement au modèle de langage des modalités sensorielles continues du monde réel, afin de construire un lien entre les mots et les perceptions (
Percepts)
- Il traite en entrée des phrases multimodales combinant encodage visuel, estimation d’état continu et entrées textuelles
- « Va me chercher des chips de riz dans le tiroir » : il peut se déplacer, ouvrir le tiroir, chercher, saisir, refermer le tiroir puis rapporter l’objet. Même si une personne le perturbe brièvement au milieu, il réessaie
- Le plus grand modèle de langage, PaLM-E 562B + OK-VQA (jeu de données pour le visual question answering)
1 commentaires
Qu’est-ce que l’Embodied AI ?