La pièce manquante de la robotique : le modèle du monde (World Model)

Malgré les progrès fulgurants de l’IA logicielle, les robots du monde physique ont toujours du mal à accomplir ne serait-ce que des tâches de base comme plier le linge ou ranger un lave-vaisselle
Le monde physique est rempli de frottements, d’occlusions, de dynamiques imprévisibles et d’aléa, ce qui le rend fondamentalement différent des environnements d’IA centrés sur le texte
Un World Model ne fonctionne pas en programmant directement les lois de la physique, mais en apprenant directement à partir de l’expérience réelle pour prédire les états futurs en fonction des actions
JEPA (Joint-Embedding Predictive Architecture) prédit des représentations abstraites plutôt que des prédictions au niveau du pixel, ce qui filtre le bruit, mais souffrait d’un problème d’effondrement des représentations (collapse)
LeJEPA résout ce problème grâce à une technique de régularisation mathématique et fournit une base théorique pour faire passer la robotique d’une approche manuelle fondée sur des règles à une approche fondée sur l’apprentissage

L’écart entre l’IA numérique et les robots physiques

Les LLM peuvent écrire du code, concevoir des médicaments et des protéines, résumer des documents juridiques, servir de tuteurs pour les étudiants, générer de la musique et de l’art, et même résoudre des problèmes de raisonnement mathématique que l’IA classique n’avait pas su traiter pendant des décennies
En revanche, les robots du monde physique échouent encore régulièrement à des tâches élémentaires dès qu’ils sortent d’un environnement d’entrepôt contrôlé : plier le linge, nettoyer une pièce en désordre, saisir des objets irréguliers, ranger un lave-vaisselle, cuisiner ou mettre la table
Les robots d’assistance domestique autonomes, les systèmes capables de se déplacer en sécurité dans des environnements imprévisibles ou les capacités de manipulation d’objets souples au niveau d’un tout-petit n’existent pas encore ; les robots d’usine et de laboratoire restent coûteux, fragiles, dépendants de scripts et étroitement spécialisés
Des chercheurs en robotique comme Rodney Brooks sont sceptiques vis-à-vis des approches « vision only », car la manipulation repose fortement sur des signaux de toucher, retour de force et proprioception, qui sont aujourd’hui absents ou très grossiers dans les systèmes actuels
Les modèles de langage opèrent dans le texte, un monde stable à la structure cohérente, et les actions numériques sont réversibles ; le monde physique, lui, est rempli de frottements, d’occlusions, de dynamiques imprévisibles et d’aléa permanent

Définition et rôle du World Model

Lorsqu’ils prennent des décisions et planifient dans le réel, les humains s’appuient sur une représentation interne de leur environnement ; planifier consiste à simuler mentalement les états futurs susceptibles d’apparaître selon les actions entreprises
Cette représentation interne ne conserve que les informations nécessaires à la résolution du problème et élimine les détails inutiles ; par exemple, pour planifier un trajet domicile-travail, on prend en compte les routes, l’heure et la circulation, mais pas des informations sans pertinence comme le bruit précis produit par chaque véhicule
À un niveau plus élevé, ces représentations internes reflètent la structure du monde, ce qui permet d’intégrer rapidement une nouvelle situation dans des schémas déjà familiers
- Exemple : face à une porte munie d’une poignée d’une forme jamais vue, on peut tout de même reconnaître qu’il s’agit d’une poignée grâce à sa forme et à sa position, puis déduire son mode d’utilisation à partir de la compréhension générale selon laquelle « une porte s’ouvre en exerçant une force sur sa poignée »
Un World Model se distingue d’une policy qui transforme immédiatement des observations en actions ; au lieu de décider lui-même, il prédit comment le monde évoluera selon plusieurs actions possibles et génère une représentation compressée des états futurs
Avec un tel modèle prédictif, un planificateur (ou une policy de niveau inférieur) peut comparer et évaluer plusieurs futurs imaginés afin de choisir la séquence d’actions conduisant au meilleur résultat

Les 4 propriétés d’un World Model utile

Refléter la structure du monde : il doit contenir des représentations qui révèlent la structure du monde, et non de simples données sensorielles brutes
Généralisation multi-tâches : il doit pouvoir s’adapter à de nouvelles tâches sans réapprendre depuis zéro à chaque fois
Filtrer les détails non pertinents : il doit se concentrer uniquement sur les informations qui influencent le résultat et éliminer les éléments superflus
Prédire l’évolution du monde selon les actions : il doit pouvoir anticiper les résultats possibles avant que l’action ne soit réellement exécutée

L’histoire de l’apprentissage de représentations du monde porteuses de sens

Les grandes avancées du deep learning en perception ont produit, sans l’avoir explicitement cherché, des représentations structurées du monde en interne
En computer vision, les modèles entraînés à classer des images en chats, chiens ou éléphants ont formé des représentations internes bien organisées et réutilisables
En optimisant un objectif simple consistant à deviner le contenu d’une image, les caractéristiques apprises ont naturellement encodé des informations sur la forme, la texture, la pose et la sémantique
Ces représentations peuvent ensuite servir d’état d’entrée pour des tâches comme la détection d’objets, le suivi ou la segmentation, sans apprentissage supplémentaire dédié
Par la suite, l’apprentissage a dépassé l’approche centrée sur la classification pour adopter la reconstruction d’image, qui consiste à compléter des parties manquantes à partir du contexte, faisant émerger des représentations plus riches et plus généralisables
Mais une limite fondamentale est apparue : les entrées sensorielles contiennent toujours des détails sans rapport avec les tâches aval, et dont la prédiction elle-même est impossible
- Exemple : les fines ondulations à la surface d’une casserole en ébullition sont fondamentalement aléatoires et contribuent à peine à une quelconque prise de décision
- Les modèles fondés sur la reconstruction cherchent malgré tout à prédire aussi ces détails, et tentent donc d’encoder dans le World Model une part d’aléa dénuée de sens
- Le résultat est une représentation du monde formée dans un état emmêlé avec le bruit plutôt qu’autour de sa structure essentielle

L’approche de JEPA

Si la reconstruction d’image est un problème de complétion de motifs (prédire des pixels manquants à partir d’une partie d’image), alors un World Model peut être vu comme un problème de complétion de motifs dans le temps
- il s’agit de prédire un état futur du monde à partir de son état actuel et d’une séquence d’actions
JEPA (Joint-Embedding Predictive Architecture), au lieu de se concentrer sur la reconstruction d’image ou la prédiction de futures frames vidéo au niveau du pixel, se focalise sur la prédiction de représentations abstraites du futur conditionnées sur des variables latentes
Les variables latentes peuvent être comprises comme les actions effectuées par le robot, ou comme des facteurs indépendants influençant les changements futurs
En apprenant à prédire l’état abstrait d’une scène plutôt que son apparence exacte au niveau du pixel, le modèle forme des représentations organisées et exploitables sans gaspiller sa capacité sur des détails visuels non pertinents
JEPA construit des représentations qui capturent des éléments stables et significatifs tout en écartant naturellement les détails hautement aléatoires
L’objectif d’apprentissage lui-même pousse à ne pas encoder la forme exacte de la vapeur d’une bouilloire ni la texture fine d’un tissu froissé
- Ces détails sont intrinsèquement imprévisibles et rendent au contraire plus difficile la prédiction des états futurs du monde
Pour obtenir de bonnes performances, le modèle doit représenter les aspects prévisibles qui comptent pour comprendre comment le monde va évoluer
L’essentiel de ce choix d’architecture est d’avoir déplacé l’objectif du modèle, de la simple reconstruction vers l’apprentissage des dynamiques prévisibles du monde

Les limites de JEPA et le problème d’effondrement des représentations

Si JEPA ne s’est pas largement diffusé ces dernières années, c’est parce qu’il est difficile de distinguer clairement le bruit imprévisible et les détails aléatoires de la structure porteuse de sens
Sans contraintes appropriées, le modèle tend à s’effondrer vers des représentations triviales
C’est comparable à un système de classement qui, pour résoudre un problème d’excès d’information, supprimerait purement et simplement des catégories entières de documents
- Le modèle JEPA choisit un raccourci pour éviter le bruit imprévisible et, ce faisant, élimine aussi la structure utile

LeJEPA : une solution mathématique

Randall Balestriero et Yann LeCun proposent avec LeJEPA un régulariseur fondé mathématiquement pour empêcher l’effondrement des représentations observé avec JEPA
L’idée centrale est d’empêcher que l’espace des représentations internes concentre trop de variance sur quelques caractéristiques en négligeant toutes les autres, en maintenant une résolution uniforme dans toutes les directions
Pour cela, la distribution des embeddings est amenée vers la forme d’une gaussienne isotrope
Cette contrainte pousse le modèle à utiliser sa capacité de manière équilibrée sur l’ensemble des dimensions de représentation, afin de préserver des représentations internes riches et bien conditionnées
En apparence, il s’agit d’une simple contrainte géométrique, mais ses effets sont puissants
- amélioration de la stabilité de l’apprentissage
- préservation des structures porteuses de sens
- apprentissage de représentations riches et prédictives sans heuristiques comme l’augmentation de données ou les négatifs contrastifs
Cela marque un passage des techniques temporaires destinées à empêcher l’effondrement du modèle à une approche théorique qui cherche à lui faire apprendre la structure même du monde, sans se laisser dominer par le bruit

Le World Model ouvre une nouvelle voie

Ces idées suggèrent un changement fondamental dans la manière de penser la robotique
Pendant des décennies, la robotique est restée piégée dans une boucle
- concevoir manuellement une solution pour une tâche spécifique
- constater les échecs dans les cas limites
- ajouter encore des règles et des exceptions
Le World Model offre un moyen de sortir de ce cycle
- au lieu de programmer directement à la machine les lois de la physique
- on peut évoluer vers des systèmes entraînés à prédire les futurs états du monde et à raisonner à partir d’eux

Les questions ouvertes qui restent

comment guider efficacement le modèle pour qu’il explore des actions significatives et utiles
comment l’étendre à toute la complexité des environnements non structurés
comment préserver la sécurité et l’alignement avec l’intention humaine à mesure que l’autonomie augmente
Ces problèmes sont loin d’être simples, mais ils sont de nature qualitativement différente de ceux qui ont bloqué la robotique au cours des 50 dernières années
Ce qui a changé, c’est l’émergence d’un cadre théorique en adéquation avec la structure du problème

Conclusion

LeJEPA et les approches associées ne constituent pas une simple amélioration incrémentale, mais proposent une base mathématique pour l’apprentissage de World Models capables de traiter l’incertitude du monde réel
Pour la première fois, l’écart entre intelligence numérique et capacités physiques commence à apparaître non plus comme de la science-fiction, mais comme un défi que la recherche peut réellement surmonter

La pièce manquante de la robotique : le modèle du monde (World Model)

L’écart entre l’IA numérique et les robots physiques

Définition et rôle du World Model

Les 4 propriétés d’un World Model utile

L’histoire de l’apprentissage de représentations du monde porteuses de sens

L’approche de JEPA

Les limites de JEPA et le problème d’effondrement des représentations

LeJEPA : une solution mathématique

Le World Model ouvre une nouvelle voie

Les questions ouvertes qui restent

Conclusion

À lire aussi

Aucun commentaire pour le moment.