L’intelligence spatiale est la prochaine frontière de l’IA

(drfeifei.substack.com)

14 points par GN⁺ 2025-11-12 | 1 commentaires | Partager sur WhatsApp

L’intelligence spatiale (spatial intelligence) est un domaine clé qui transforme en profondeur la manière dont l’IA comprend le monde réel et virtuel et interagit avec lui
Les grands modèles de langage (LLM) actuels excellent dans le traitement du langage, mais leurs capacités de raisonnement spatial — distance, direction, cohérence physique — restent inférieures à celles de l’humain
Pour répondre à cette limite, une nouvelle approche, le « world model », est proposée : une architecture de modèles génératifs de nouvelle génération, à la fois générative, multimodale et interactive
World Labs développe ce type de modèles, et une première version appelée « Marble » a démontré sa capacité à générer et maintenir des environnements 3D cohérents à partir d’entrées multiples
L’intelligence spatiale constitue la prochaine étape de l’évolution de l’IA pour augmenter les capacités humaines dans des domaines variés comme la créativité, la robotique, la science, la santé et l’éducation

Le concept d’intelligence spatiale et son importance

L’intelligence humaine a évolué sur la base de la boucle perception-action (perception-action loop), dont l’intelligence spatiale est un élément central
- Se garer, saisir un objet, se déplacer dans un environnement complexe : toutes ces actions du quotidien reposent sur le raisonnement spatial
- Dès le développement de l’enfant, avant même le langage, le sens de l’espace s’acquiert par l’interaction avec l’environnement
La créativité et l’imagination reposent elles aussi sur l’intelligence spatiale
- Des peintures rupestres au cinéma, au jeu vidéo et à la réalité virtuelle (VR), l’humanité représente le monde à travers la pensée spatiale
- La simulation spatiale joue également un rôle clé dans le design industriel, les jumeaux numériques et l’entraînement des robots
Historiquement aussi, l’intelligence spatiale a été un moteur du développement des civilisations
- Le calcul de la circonférence terrestre par Ératosthène, l’innovation structurelle de la Spinning Jenny ou encore la découverte de la structure de l’ADN sont autant de fruits de la pensée spatiale
L’IA a certes progressé en reconnaissance visuelle et en génération d’images, mais elle reste insuffisante en matière de compréhension des distances, des directions et des lois physiques
- Même les modèles multimodaux les plus récents affichent de faibles performances sur la rotation d’objets, la navigation dans des labyrinthes ou la prédiction physique
- Cette limite freine les applications dans le monde réel, comme le contrôle robotique, la conduite autonome ou l’apprentissage immersif

Les world models : une nouvelle architecture d’IA pour matérialiser l’intelligence spatiale

Pour concrétiser l’intelligence spatiale, il faut des world models plus complexes que les LLM
- Ils doivent comprendre, générer et manipuler de façon intégrée la complexité sémantique, physique, géométrique et dynamique des mondes réels et virtuels
Les trois capacités clés d’un world model
1. Générative (Generative) : générer des mondes cohérents sur les plans perceptif, géométrique et physique
  - Simuler un espace réel ou virtuel tout en maintenant la continuité entre état présent et états passés
2. Multimodale (Multimodal) : intégrer et traiter conjointement des entrées variées comme l’image, la vidéo, le texte ou les gestes
  - Le modèle doit conjuguer fidélité visuelle et capacité d’interprétation sémantique
3. Interactive (Interactive) : prédire et générer l’état suivant en fonction des actions fournies en entrée
  - Si un état cible est donné, le modèle doit aussi pouvoir anticiper les transformations du monde et les actions correspondantes
La difficulté technique est bien plus élevée que pour la génération de langage, car il faut refléter de manière cohérente des lois physiques, structures géométriques et dynamiques bien plus complexes

Les recherches de World Labs et les défis techniques

Fondé au début de l’année 2024, World Labs mène des recherches sur les world models centrés sur l’intelligence spatiale
Principaux axes de recherche
- Définir une fonction d’apprentissage universelle : établir un objectif d’apprentissage aussi simple que la « prédiction du prochain token » des LLM, mais qui intègre les lois de la physique et de la géométrie
- Données d’entraînement à grande échelle : exploiter des sources multiples comme les images et vidéos d’Internet, les données synthétiques, ou encore les informations de profondeur et tactiles
- Nouvelles architectures de modèles : recherche sur la tokenisation fondée sur une perception 3D/4D et sur des structures mémoire
  - Exemple : RTFM (Real-Time Frame-based Model) utilise des frames spatiales comme mémoire pour permettre la génération en temps réel et le maintien de la cohérence
Marble, premier résultat de ces travaux, génère et maintient un environnement 3D cohérent à partir d’entrées multiples, et a été présenté à certains utilisateurs
- Son développement se poursuit en vue d’une future publication

Les domaines d’application de l’intelligence spatiale

Créativité et production de contenu

Marble offre aux réalisateurs, game designers, architectes et autres créateurs la capacité de générer des mondes 3D entièrement explorables
- Il devient possible d’expérimenter différentes scènes et différents points de vue sans contrainte de budget ou de géographie
- Cela permet de créer des expériences immersives dans le storytelling, l’art, l’éducation ou la conception
La conception de récits spatiaux peut aussi accélérer les processus de visualisation en architecture, design industriel et mode
Avec l’extension des expériences immersives fondées sur la VR et la XR, les créateurs indépendants peuvent eux aussi bâtir leurs propres mondes

Robotique

Le principal goulet d’étranglement de l’apprentissage robotique est le manque de données d’entraînement, que les world models peuvent compenser
- En réduisant l’écart entre simulation et réalité, ils permettent d’apprendre dans une grande variété d’environnements
L’intelligence spatiale est indispensable pour réaliser des robots collaboratifs avec l’humain
- L’objectif est de développer des robots capables de comprendre les intentions humaines, d’y répondre avec empathie et de coopérer dans des contextes comme le laboratoire ou le domicile
Elle peut aussi servir à construire des environnements d’entraînement et des benchmarks pour des robots de formes variées — nanorobots, robots souples, robots pour les grands fonds ou l’espace

Science, santé, éducation

Recherche scientifique : accélération des expériences grâce à des simulations multidimensionnelles, et réduction des coûts de calcul dans des domaines comme le climat ou les matériaux
Santé : extension des usages de l’IA fondée sur l’intelligence spatiale pour la découverte de médicaments, le diagnostic par imagerie ou le suivi des patients
Éducation : visualisation de concepts complexes et création d’environnements d’apprentissage immersifs adaptés à chaque apprenant
- Les élèves peuvent explorer la structure cellulaire ou des événements historiques, tandis que les professionnels peuvent s’exercer grâce à des simulations réalistes

Une vision d’une IA centrée sur l’humain

Le but du développement de l’IA est d’augmenter les capacités humaines, non de les remplacer
- Elle doit évoluer dans une direction qui renforce la créativité, la productivité, la connexion aux autres et la satisfaction de vie
L’intelligence spatiale est présentée comme une technologie qui étend l’imagination, le soin et la capacité d’exploration humaines
Pour concrétiser cette vision, la coopération de l’ensemble de l’écosystème IA — chercheurs, entreprises, décideurs publics — est nécessaire

Conclusion

L’IA a déjà transformé toute la société, mais l’intelligence spatiale est présentée comme la prochaine étape d’innovation
Les world models ouvrent la voie au développement de machines spatialement intelligentes capables d’interagir harmonieusement avec le monde réel
Cela est vu comme un tournant technologique susceptible d’améliorer des activités humaines essentielles, de la recherche sur les maladies au storytelling en passant par le soin
De même que l’évolution de l’intelligence humaine a commencé avec l’intelligence spatiale, la vision proposée est que l’accomplissement de l’IA passera lui aussi par l’intelligence spatiale

1 commentaires

GN⁺ 2025-11-12

Réactions sur Hacker News

En lisant l’article, je ne vois pas très bien ce qu’ils comprennent réellement
Les notes contiennent très peu d’informations concrètes, on est surtout au niveau de « rassembler des données spatiales comme ImageNet »
Les personnes qui travaillent sur l’intelligence spatiale viennent surtout du côté des neurosciences
Dans le papier de synthèse que j’ai écrit, j’expliquais que l’entorhinal cortex, les grid cells et les transformations de coordonnées pourraient être au cœur du sujet
Tous les animaux transforment des coordonnées en temps réel pour explorer le monde, et les humains sont ceux qui possèdent le plus de représentations coordonnées
À mon avis, une intelligence de niveau humain consiste à savoir quand et comment transformer des systèmes de coordonnées pour en extraire une information utile
C’est un texte écrit avant le boom des LLM, mais je pense toujours que cette direction est la bonne
- J’avais des idées similaires dans les années 1990
  Cela a mené à des travaux sur la détection de collisions, l’animation basée sur la physique, la résolution d’équations non linéaires et la locomotion sur pattes en terrain accidenté, mais ce n’était pas de l’IA
  Aujourd’hui, on mise plutôt sur d’énormes volumes de calcul en espérant qu’un système appris découvre tout seul une représentation interne du monde spatial
  La marche robotique a beaucoup progressé, mais la manipulation en environnement non structuré reste très mauvaise
  Même comparé aux vidéos du labo de McCarthy à Stanford dans les années 1960, la différence n’est pas énorme
  Avant, je pensais qu’il faudrait d’abord atteindre une intelligence de niveau souris ou écureuil avant d’arriver au niveau humain, donc j’ai été surpris de voir l’IA abstraite émerger en premier
  Ces derniers temps, les recherches en génération vidéo qui regardent une courte séquence puis prédisent la scène suivante me semblent intéressantes
  Je pense que le cœur du sens commun, c’est justement la capacité à prédire rapidement « ce qui va se passer ensuite »
- Il est intéressant de voir que vous, comme le couple Moser (prix Nobel), pensez que les grid cells sont essentielles pour permettre aux animaux de comprendre leur position dans le monde
  Le communiqué du Nobel à ce sujet mérite aussi le détour
- J’ai abandonné après quelques paragraphes, parce qu’aucune définition de « l’intelligence spatiale » n’arrivait
  Il y a trop de buzzwords de VC du type « transform », « revolutionize », « next frontier », « North Star », ce qui nuit à la crédibilité
- J’ai bien lu le papier, et surtout la bibliographie était intéressante
  Le papier Nature de 2018 "Vector-based navigation using grid-like representations in artificial agents",
  le papier Nature de 2024 "Modeling hippocampal spatial cells in rodents navigating in 3D environments",
  ainsi que la simulation de grid cells par DeepMind valent aussi le coup d’œil
  Les neurosciences étudient la perception spatiale depuis déjà longtemps
- Au final, l’important est de savoir si ce type de recherche peut produire une véritable intuition utile
  Copier à l’identique les systèmes biologiques échoue presque toujours
  Les CNN ont été inspirés par le cerveau, mais leur structure est différente, et les LLM ressemblent très peu au cerveau humain
  Les similarités fonctionnelles des LLM ne viennent pas d’une imitation de la structure cérébrale, mais du processus d’entraînement
Ce n’est au fond qu’un système de simulation qui fonctionne dans un monde virtuel étroit
Ce genre de système aide très peu à apprendre la dynamique complexe du monde réel
Un modèle de monde virtuel n’est qu’un cas particulier simplifié d’un modèle du monde physique, et rien ne montre que cette entreprise ait réellement fait progresser l’intelligence spatiale
J’ai récemment eu une expérience étonnante en appliquant l’agentic coding à la CAO
Je devais ajouter un filetage à un modèle destiné à l’impression 3D, et j’ai utilisé la géométrie computationnelle pour permettre à l’agent de « sentir » le modèle
J’ai convolué une sphère de rayon donné sur l’ensemble du modèle pour trouver l’emplacement du port et y ajouter le filetage
Après quelques essais, cela a fini par marcher, et cette expérience m’a fait comprendre que le modèle devait avoir une forme de sens du toucher
Au final, le modèle 3D devait être implémenté en code pour pouvoir être vérifié
- Le potentiel de la CAO générative est énorme
  J’ai expérimenté avec OpenSCAD, mais les modèles actuels manquent encore de sens commun sur les connexions de formes
  Avec davantage de jeux de données de CAO basée sur le code, cela deviendra bien plus utile
  Sinon, il faudra au bout du compte un apprentissage fondé sur la simulation physique
- Je me demande si vous avez utilisé CadQuery ; s’il existe un billet récapitulant ce que vous avez appris, j’aimerais bien le lire
- J’aimerais en savoir plus sur l’implémentation, et aussi savoir si vous prévoyez d’en faire un article
- Moi aussi, j’expérimente une approche autour des objets 3D génératifs, donc je serais curieux d’en entendre davantage
- Contrairement aux prompts pour LLM, décrire des objets géométriques en texte est vraiment difficile
  On tombe vite dans une ambiguïté du type « ne mets pas ça là, mets-le plutôt là-bas »
Genie 3 a plus ou moins atteint l’objectif qu’elle décrivait, à savoir un modèle du monde contrôlable avec des lois physiques cohérentes
Son modèle frère Veo 3 montre aussi des capacités de résolution de problèmes spatiaux
Genie et Veo sont bien plus proches de sa vision que World Labs
Mais comme l’article ne mentionne jamais les modèles de Google, il donne l’impression d’un texte de promotion maison
- Gemini ER est lui aussi un modèle qui agit spatialement dans le monde réel
  Voir DeepMind Gemini Robotics ER
Aujourd’hui, l’IA n’apprend qu’à partir du web et n’apprend pas via l’interaction avec les humains
Les humains apprennent à travers un contexte et une mémoire accumulés sur toute une vie, alors que pour l’IA ce contexte disparaît dès la fin de la conversation
Avec une énorme mémoire contextuelle personnalisée, sa valeur augmenterait énormément
- Le Nested Learning de Google Research pourrait être une piste de solution
  Les approches classiques souffrent de catastrophic forgetting lors d’un entraînement supplémentaire, alors que Nested Learning découpe le système en plusieurs petits modèles afin d’éviter de dégrader le reste pendant le réentraînement
- Le « contexte » humain est le résultat d’une accumulation évolutive sur des milliards d’années
  Notre compréhension de l’espace est immense, presque comme une simulation quantique à l’échelle de l’univers
  En comparaison, ce que nous pouvons aujourd’hui simuler complètement ne dépasse guère le niveau de l’atome ou de la cellule
En lisant ce texte, je me suis dit que le premier cas où l’humain a « pensé plus loin que la nature » était peut-être la roue
La nature est cahoteuse, mais les humains ont construit des routes plates pour rendre le roulement possible
Le progrès scientifique et technologique est un autre exemple de transmission intergénérationnelle de l’intuition des motifs
Je ne sais pas si la « superintelligence » est possible sous une autre forme que la vitesse, mais une capacité de pensée en trois dimensions sera essentielle pour que l’IA dépasse les humains et la nature
- Le corps humain est un système organisé de cellules qui coopèrent
  De la même façon que les vaisseaux sanguins transportent nutriments et signaux, les routes transportent des ressources
  Peut-être que la nature n’a fait qu’étendre cette capacité d’organisation à l’échelle des espèces, et il est donc difficile d’affirmer que l’humain est au-dessus d’elle
La cognition humaine est une construction reposant sur une intelligence spatiale
Elle ne se réduit pas à une pensée abstraite, mais constitue une expérience intégrée fondée sur les sens
L’évolution n’a pas obtenu la généralisation par un cerveau symbolique, mais par la fusion des perceptions
L’intelligence ne vient pas d’un algorithme, mais d’une harmonie cohérente entre les sens
L’exhaustivité sensorielle est la vraie direction à suivre
Je suis ce billet de blog qui fait le point sur l’état du raisonnement spatial des LLM
La conclusion… c’est qu’il reste encore beaucoup de chemin à parcourir
Les spatial tokens peuvent aider, mais ils ne sont pas indispensables
Beaucoup de problèmes physiques peuvent encore se résoudre avec du papier et un crayon
Il est étonnant qu’une image 512×512 puisse être représentée par 85 tokens, et une vidéo par 263 tokens par seconde
Cela ressemble à un nouveau problème d’équilibre entre mémoire et embeddings
Comme dans la question « peut-on faire tourner une pomme dans sa tête ? », les embeddings spatiaux rendront possible une compréhension intuitive de la dynamique
Dans notre équipe FlyShirley, nous étudions aussi ce domaine via des simulations d’entraînement de pilotes, et nous prévoyons d’essayer le modèle de Fei-Fei
Comme l’apprentissage et le raisonnement fondés sur la vidéo demandent des ressources de calcul massives,
je doute que cette approche soit réellement utile pour des assistants agentiques (code, marketing, gestion d’agenda, etc.)
J’ai plutôt l’impression qu’il s’agit d’une structure de calcul mieux adaptée au domaine de la robotique

L’intelligence spatiale est la prochaine frontière de l’IA

Le concept d’intelligence spatiale et son importance

Les world models : une nouvelle architecture d’IA pour matérialiser l’intelligence spatiale

Les recherches de World Labs et les défis techniques

Les domaines d’application de l’intelligence spatiale

Créativité et production de contenu

Robotique

Science, santé, éducation

Une vision d’une IA centrée sur l’humain

Conclusion

À lire aussi

1 commentaires

Réactions sur Hacker News