- L’intelligence spatiale (spatial intelligence) est un domaine clé qui transforme en profondeur la manière dont l’IA comprend le monde réel et virtuel et interagit avec lui
- Les grands modèles de langage (LLM) actuels excellent dans le traitement du langage, mais leurs capacités de raisonnement spatial — distance, direction, cohérence physique — restent inférieures à celles de l’humain
- Pour répondre à cette limite, une nouvelle approche, le « world model », est proposée : une architecture de modèles génératifs de nouvelle génération, à la fois générative, multimodale et interactive
- World Labs développe ce type de modèles, et une première version appelée « Marble » a démontré sa capacité à générer et maintenir des environnements 3D cohérents à partir d’entrées multiples
- L’intelligence spatiale constitue la prochaine étape de l’évolution de l’IA pour augmenter les capacités humaines dans des domaines variés comme la créativité, la robotique, la science, la santé et l’éducation
Le concept d’intelligence spatiale et son importance
- L’intelligence humaine a évolué sur la base de la boucle perception-action (perception-action loop), dont l’intelligence spatiale est un élément central
- Se garer, saisir un objet, se déplacer dans un environnement complexe : toutes ces actions du quotidien reposent sur le raisonnement spatial
- Dès le développement de l’enfant, avant même le langage, le sens de l’espace s’acquiert par l’interaction avec l’environnement
- La créativité et l’imagination reposent elles aussi sur l’intelligence spatiale
- Des peintures rupestres au cinéma, au jeu vidéo et à la réalité virtuelle (VR), l’humanité représente le monde à travers la pensée spatiale
- La simulation spatiale joue également un rôle clé dans le design industriel, les jumeaux numériques et l’entraînement des robots
- Historiquement aussi, l’intelligence spatiale a été un moteur du développement des civilisations
- Le calcul de la circonférence terrestre par Ératosthène, l’innovation structurelle de la Spinning Jenny ou encore la découverte de la structure de l’ADN sont autant de fruits de la pensée spatiale
- L’IA a certes progressé en reconnaissance visuelle et en génération d’images, mais elle reste insuffisante en matière de compréhension des distances, des directions et des lois physiques
- Même les modèles multimodaux les plus récents affichent de faibles performances sur la rotation d’objets, la navigation dans des labyrinthes ou la prédiction physique
- Cette limite freine les applications dans le monde réel, comme le contrôle robotique, la conduite autonome ou l’apprentissage immersif
Les world models : une nouvelle architecture d’IA pour matérialiser l’intelligence spatiale
- Pour concrétiser l’intelligence spatiale, il faut des world models plus complexes que les LLM
- Ils doivent comprendre, générer et manipuler de façon intégrée la complexité sémantique, physique, géométrique et dynamique des mondes réels et virtuels
- Les trois capacités clés d’un world model
- Générative (Generative) : générer des mondes cohérents sur les plans perceptif, géométrique et physique
- Simuler un espace réel ou virtuel tout en maintenant la continuité entre état présent et états passés
- Multimodale (Multimodal) : intégrer et traiter conjointement des entrées variées comme l’image, la vidéo, le texte ou les gestes
- Le modèle doit conjuguer fidélité visuelle et capacité d’interprétation sémantique
- Interactive (Interactive) : prédire et générer l’état suivant en fonction des actions fournies en entrée
- Si un état cible est donné, le modèle doit aussi pouvoir anticiper les transformations du monde et les actions correspondantes
- La difficulté technique est bien plus élevée que pour la génération de langage, car il faut refléter de manière cohérente des lois physiques, structures géométriques et dynamiques bien plus complexes
Les recherches de World Labs et les défis techniques
- Fondé au début de l’année 2024, World Labs mène des recherches sur les world models centrés sur l’intelligence spatiale
- Principaux axes de recherche
- Définir une fonction d’apprentissage universelle : établir un objectif d’apprentissage aussi simple que la « prédiction du prochain token » des LLM, mais qui intègre les lois de la physique et de la géométrie
- Données d’entraînement à grande échelle : exploiter des sources multiples comme les images et vidéos d’Internet, les données synthétiques, ou encore les informations de profondeur et tactiles
- Nouvelles architectures de modèles : recherche sur la tokenisation fondée sur une perception 3D/4D et sur des structures mémoire
- Exemple : RTFM (Real-Time Frame-based Model) utilise des frames spatiales comme mémoire pour permettre la génération en temps réel et le maintien de la cohérence
- Marble, premier résultat de ces travaux, génère et maintient un environnement 3D cohérent à partir d’entrées multiples, et a été présenté à certains utilisateurs
- Son développement se poursuit en vue d’une future publication
Les domaines d’application de l’intelligence spatiale
Créativité et production de contenu
- Marble offre aux réalisateurs, game designers, architectes et autres créateurs la capacité de générer des mondes 3D entièrement explorables
- Il devient possible d’expérimenter différentes scènes et différents points de vue sans contrainte de budget ou de géographie
- Cela permet de créer des expériences immersives dans le storytelling, l’art, l’éducation ou la conception
- La conception de récits spatiaux peut aussi accélérer les processus de visualisation en architecture, design industriel et mode
- Avec l’extension des expériences immersives fondées sur la VR et la XR, les créateurs indépendants peuvent eux aussi bâtir leurs propres mondes
Robotique
- Le principal goulet d’étranglement de l’apprentissage robotique est le manque de données d’entraînement, que les world models peuvent compenser
- En réduisant l’écart entre simulation et réalité, ils permettent d’apprendre dans une grande variété d’environnements
- L’intelligence spatiale est indispensable pour réaliser des robots collaboratifs avec l’humain
- L’objectif est de développer des robots capables de comprendre les intentions humaines, d’y répondre avec empathie et de coopérer dans des contextes comme le laboratoire ou le domicile
- Elle peut aussi servir à construire des environnements d’entraînement et des benchmarks pour des robots de formes variées — nanorobots, robots souples, robots pour les grands fonds ou l’espace
Science, santé, éducation
- Recherche scientifique : accélération des expériences grâce à des simulations multidimensionnelles, et réduction des coûts de calcul dans des domaines comme le climat ou les matériaux
- Santé : extension des usages de l’IA fondée sur l’intelligence spatiale pour la découverte de médicaments, le diagnostic par imagerie ou le suivi des patients
- Éducation : visualisation de concepts complexes et création d’environnements d’apprentissage immersifs adaptés à chaque apprenant
- Les élèves peuvent explorer la structure cellulaire ou des événements historiques, tandis que les professionnels peuvent s’exercer grâce à des simulations réalistes
Une vision d’une IA centrée sur l’humain
- Le but du développement de l’IA est d’augmenter les capacités humaines, non de les remplacer
- Elle doit évoluer dans une direction qui renforce la créativité, la productivité, la connexion aux autres et la satisfaction de vie
- L’intelligence spatiale est présentée comme une technologie qui étend l’imagination, le soin et la capacité d’exploration humaines
- Pour concrétiser cette vision, la coopération de l’ensemble de l’écosystème IA — chercheurs, entreprises, décideurs publics — est nécessaire
Conclusion
- L’IA a déjà transformé toute la société, mais l’intelligence spatiale est présentée comme la prochaine étape d’innovation
- Les world models ouvrent la voie au développement de machines spatialement intelligentes capables d’interagir harmonieusement avec le monde réel
- Cela est vu comme un tournant technologique susceptible d’améliorer des activités humaines essentielles, de la recherche sur les maladies au storytelling en passant par le soin
- De même que l’évolution de l’intelligence humaine a commencé avec l’intelligence spatiale, la vision proposée est que l’accomplissement de l’IA passera lui aussi par l’intelligence spatiale
1 commentaires
Réactions sur Hacker News
En lisant l’article, je ne vois pas très bien ce qu’ils comprennent réellement
Les notes contiennent très peu d’informations concrètes, on est surtout au niveau de « rassembler des données spatiales comme ImageNet »
Les personnes qui travaillent sur l’intelligence spatiale viennent surtout du côté des neurosciences
Dans le papier de synthèse que j’ai écrit, j’expliquais que l’entorhinal cortex, les grid cells et les transformations de coordonnées pourraient être au cœur du sujet
Tous les animaux transforment des coordonnées en temps réel pour explorer le monde, et les humains sont ceux qui possèdent le plus de représentations coordonnées
À mon avis, une intelligence de niveau humain consiste à savoir quand et comment transformer des systèmes de coordonnées pour en extraire une information utile
C’est un texte écrit avant le boom des LLM, mais je pense toujours que cette direction est la bonne
Cela a mené à des travaux sur la détection de collisions, l’animation basée sur la physique, la résolution d’équations non linéaires et la locomotion sur pattes en terrain accidenté, mais ce n’était pas de l’IA
Aujourd’hui, on mise plutôt sur d’énormes volumes de calcul en espérant qu’un système appris découvre tout seul une représentation interne du monde spatial
La marche robotique a beaucoup progressé, mais la manipulation en environnement non structuré reste très mauvaise
Même comparé aux vidéos du labo de McCarthy à Stanford dans les années 1960, la différence n’est pas énorme
Avant, je pensais qu’il faudrait d’abord atteindre une intelligence de niveau souris ou écureuil avant d’arriver au niveau humain, donc j’ai été surpris de voir l’IA abstraite émerger en premier
Ces derniers temps, les recherches en génération vidéo qui regardent une courte séquence puis prédisent la scène suivante me semblent intéressantes
Je pense que le cœur du sens commun, c’est justement la capacité à prédire rapidement « ce qui va se passer ensuite »
Le communiqué du Nobel à ce sujet mérite aussi le détour
Il y a trop de buzzwords de VC du type « transform », « revolutionize », « next frontier », « North Star », ce qui nuit à la crédibilité
Le papier Nature de 2018 "Vector-based navigation using grid-like representations in artificial agents",
le papier Nature de 2024 "Modeling hippocampal spatial cells in rodents navigating in 3D environments",
ainsi que la simulation de grid cells par DeepMind valent aussi le coup d’œil
Les neurosciences étudient la perception spatiale depuis déjà longtemps
Copier à l’identique les systèmes biologiques échoue presque toujours
Les CNN ont été inspirés par le cerveau, mais leur structure est différente, et les LLM ressemblent très peu au cerveau humain
Les similarités fonctionnelles des LLM ne viennent pas d’une imitation de la structure cérébrale, mais du processus d’entraînement
Ce n’est au fond qu’un système de simulation qui fonctionne dans un monde virtuel étroit
Ce genre de système aide très peu à apprendre la dynamique complexe du monde réel
Un modèle de monde virtuel n’est qu’un cas particulier simplifié d’un modèle du monde physique, et rien ne montre que cette entreprise ait réellement fait progresser l’intelligence spatiale
J’ai récemment eu une expérience étonnante en appliquant l’agentic coding à la CAO
Je devais ajouter un filetage à un modèle destiné à l’impression 3D, et j’ai utilisé la géométrie computationnelle pour permettre à l’agent de « sentir » le modèle
J’ai convolué une sphère de rayon donné sur l’ensemble du modèle pour trouver l’emplacement du port et y ajouter le filetage
Après quelques essais, cela a fini par marcher, et cette expérience m’a fait comprendre que le modèle devait avoir une forme de sens du toucher
Au final, le modèle 3D devait être implémenté en code pour pouvoir être vérifié
J’ai expérimenté avec OpenSCAD, mais les modèles actuels manquent encore de sens commun sur les connexions de formes
Avec davantage de jeux de données de CAO basée sur le code, cela deviendra bien plus utile
Sinon, il faudra au bout du compte un apprentissage fondé sur la simulation physique
On tombe vite dans une ambiguïté du type « ne mets pas ça là, mets-le plutôt là-bas »
Genie 3 a plus ou moins atteint l’objectif qu’elle décrivait, à savoir un modèle du monde contrôlable avec des lois physiques cohérentes
Son modèle frère Veo 3 montre aussi des capacités de résolution de problèmes spatiaux
Genie et Veo sont bien plus proches de sa vision que World Labs
Mais comme l’article ne mentionne jamais les modèles de Google, il donne l’impression d’un texte de promotion maison
Voir DeepMind Gemini Robotics ER
Aujourd’hui, l’IA n’apprend qu’à partir du web et n’apprend pas via l’interaction avec les humains
Les humains apprennent à travers un contexte et une mémoire accumulés sur toute une vie, alors que pour l’IA ce contexte disparaît dès la fin de la conversation
Avec une énorme mémoire contextuelle personnalisée, sa valeur augmenterait énormément
Les approches classiques souffrent de catastrophic forgetting lors d’un entraînement supplémentaire, alors que Nested Learning découpe le système en plusieurs petits modèles afin d’éviter de dégrader le reste pendant le réentraînement
Notre compréhension de l’espace est immense, presque comme une simulation quantique à l’échelle de l’univers
En comparaison, ce que nous pouvons aujourd’hui simuler complètement ne dépasse guère le niveau de l’atome ou de la cellule
En lisant ce texte, je me suis dit que le premier cas où l’humain a « pensé plus loin que la nature » était peut-être la roue
La nature est cahoteuse, mais les humains ont construit des routes plates pour rendre le roulement possible
Le progrès scientifique et technologique est un autre exemple de transmission intergénérationnelle de l’intuition des motifs
Je ne sais pas si la « superintelligence » est possible sous une autre forme que la vitesse, mais une capacité de pensée en trois dimensions sera essentielle pour que l’IA dépasse les humains et la nature
De la même façon que les vaisseaux sanguins transportent nutriments et signaux, les routes transportent des ressources
Peut-être que la nature n’a fait qu’étendre cette capacité d’organisation à l’échelle des espèces, et il est donc difficile d’affirmer que l’humain est au-dessus d’elle
La cognition humaine est une construction reposant sur une intelligence spatiale
Elle ne se réduit pas à une pensée abstraite, mais constitue une expérience intégrée fondée sur les sens
L’évolution n’a pas obtenu la généralisation par un cerveau symbolique, mais par la fusion des perceptions
L’intelligence ne vient pas d’un algorithme, mais d’une harmonie cohérente entre les sens
L’exhaustivité sensorielle est la vraie direction à suivre
Je suis ce billet de blog qui fait le point sur l’état du raisonnement spatial des LLM
La conclusion… c’est qu’il reste encore beaucoup de chemin à parcourir
Les spatial tokens peuvent aider, mais ils ne sont pas indispensables
Beaucoup de problèmes physiques peuvent encore se résoudre avec du papier et un crayon
Il est étonnant qu’une image 512×512 puisse être représentée par 85 tokens, et une vidéo par 263 tokens par seconde
Cela ressemble à un nouveau problème d’équilibre entre mémoire et embeddings
Comme dans la question « peut-on faire tourner une pomme dans sa tête ? », les embeddings spatiaux rendront possible une compréhension intuitive de la dynamique
Dans notre équipe FlyShirley, nous étudions aussi ce domaine via des simulations d’entraînement de pilotes, et nous prévoyons d’essayer le modèle de Fei-Fei
Comme l’apprentissage et le raisonnement fondés sur la vidéo demandent des ressources de calcul massives,
je doute que cette approche soit réellement utile pour des assistants agentiques (code, marketing, gestion d’agenda, etc.)
J’ai plutôt l’impression qu’il s’agit d’une structure de calcul mieux adaptée au domaine de la robotique