15 points par xguru 2023-03-08 | 1 commentaires | Partager sur WhatsApp
  • Les grands modèles de langage peuvent accomplir des tâches complexes, mais pour permettre un raisonnement général dans le monde réel, comme pour les problèmes de robotique, ils doivent être ancrés dans une base concrète
  • Proposition d’un EMLM pour intégrer directement au modèle de langage des modalités sensorielles continues du monde réel, afin de construire un lien entre les mots et les perceptions (Percepts)
  • Il traite en entrée des phrases multimodales combinant encodage visuel, estimation d’état continu et entrées textuelles
    • « Va me chercher des chips de riz dans le tiroir » : il peut se déplacer, ouvrir le tiroir, chercher, saisir, refermer le tiroir puis rapporter l’objet. Même si une personne le perturbe brièvement au milieu, il réessaie
  • Le plus grand modèle de langage, PaLM-E 562B + OK-VQA (jeu de données pour le visual question answering)

1 commentaires

 
xguru 2023-03-08

Qu’est-ce que l’Embodied AI ?

Il s’agit d’un domaine qui consiste à créer un agent dans un environnement virtuel 3D appelé simulateur (Simulator), à l’entraîner en lui faisant accomplir diverses tâches (Task), puis à transférer cet apprentissage à une machine du monde réel, comme un robot (Sim2Real), afin qu’elle puisse également bien exécuter certaines tâches dans la réalité.