14 points par GN⁺ 2025-11-12 | 1 commentaires | Partager sur WhatsApp
  • L’intelligence spatiale (spatial intelligence) est un domaine clé qui transforme en profondeur la manière dont l’IA comprend le monde réel et virtuel et interagit avec lui
  • Les grands modèles de langage (LLM) actuels excellent dans le traitement du langage, mais leurs capacités de raisonnement spatial — distance, direction, cohérence physique — restent inférieures à celles de l’humain
  • Pour répondre à cette limite, une nouvelle approche, le « world model », est proposée : une architecture de modèles génératifs de nouvelle génération, à la fois générative, multimodale et interactive
  • World Labs développe ce type de modèles, et une première version appelée « Marble » a démontré sa capacité à générer et maintenir des environnements 3D cohérents à partir d’entrées multiples
  • L’intelligence spatiale constitue la prochaine étape de l’évolution de l’IA pour augmenter les capacités humaines dans des domaines variés comme la créativité, la robotique, la science, la santé et l’éducation

Le concept d’intelligence spatiale et son importance

  • L’intelligence humaine a évolué sur la base de la boucle perception-action (perception-action loop), dont l’intelligence spatiale est un élément central
    • Se garer, saisir un objet, se déplacer dans un environnement complexe : toutes ces actions du quotidien reposent sur le raisonnement spatial
    • Dès le développement de l’enfant, avant même le langage, le sens de l’espace s’acquiert par l’interaction avec l’environnement
  • La créativité et l’imagination reposent elles aussi sur l’intelligence spatiale
    • Des peintures rupestres au cinéma, au jeu vidéo et à la réalité virtuelle (VR), l’humanité représente le monde à travers la pensée spatiale
    • La simulation spatiale joue également un rôle clé dans le design industriel, les jumeaux numériques et l’entraînement des robots
  • Historiquement aussi, l’intelligence spatiale a été un moteur du développement des civilisations
    • Le calcul de la circonférence terrestre par Ératosthène, l’innovation structurelle de la Spinning Jenny ou encore la découverte de la structure de l’ADN sont autant de fruits de la pensée spatiale
  • L’IA a certes progressé en reconnaissance visuelle et en génération d’images, mais elle reste insuffisante en matière de compréhension des distances, des directions et des lois physiques
    • Même les modèles multimodaux les plus récents affichent de faibles performances sur la rotation d’objets, la navigation dans des labyrinthes ou la prédiction physique
    • Cette limite freine les applications dans le monde réel, comme le contrôle robotique, la conduite autonome ou l’apprentissage immersif

Les world models : une nouvelle architecture d’IA pour matérialiser l’intelligence spatiale

  • Pour concrétiser l’intelligence spatiale, il faut des world models plus complexes que les LLM
    • Ils doivent comprendre, générer et manipuler de façon intégrée la complexité sémantique, physique, géométrique et dynamique des mondes réels et virtuels
  • Les trois capacités clés d’un world model
    1. Générative (Generative) : générer des mondes cohérents sur les plans perceptif, géométrique et physique
      • Simuler un espace réel ou virtuel tout en maintenant la continuité entre état présent et états passés
    2. Multimodale (Multimodal) : intégrer et traiter conjointement des entrées variées comme l’image, la vidéo, le texte ou les gestes
      • Le modèle doit conjuguer fidélité visuelle et capacité d’interprétation sémantique
    3. Interactive (Interactive) : prédire et générer l’état suivant en fonction des actions fournies en entrée
      • Si un état cible est donné, le modèle doit aussi pouvoir anticiper les transformations du monde et les actions correspondantes
  • La difficulté technique est bien plus élevée que pour la génération de langage, car il faut refléter de manière cohérente des lois physiques, structures géométriques et dynamiques bien plus complexes

Les recherches de World Labs et les défis techniques

  • Fondé au début de l’année 2024, World Labs mène des recherches sur les world models centrés sur l’intelligence spatiale
  • Principaux axes de recherche
    • Définir une fonction d’apprentissage universelle : établir un objectif d’apprentissage aussi simple que la « prédiction du prochain token » des LLM, mais qui intègre les lois de la physique et de la géométrie
    • Données d’entraînement à grande échelle : exploiter des sources multiples comme les images et vidéos d’Internet, les données synthétiques, ou encore les informations de profondeur et tactiles
    • Nouvelles architectures de modèles : recherche sur la tokenisation fondée sur une perception 3D/4D et sur des structures mémoire
      • Exemple : RTFM (Real-Time Frame-based Model) utilise des frames spatiales comme mémoire pour permettre la génération en temps réel et le maintien de la cohérence
  • Marble, premier résultat de ces travaux, génère et maintient un environnement 3D cohérent à partir d’entrées multiples, et a été présenté à certains utilisateurs
    • Son développement se poursuit en vue d’une future publication

Les domaines d’application de l’intelligence spatiale

Créativité et production de contenu

  • Marble offre aux réalisateurs, game designers, architectes et autres créateurs la capacité de générer des mondes 3D entièrement explorables
    • Il devient possible d’expérimenter différentes scènes et différents points de vue sans contrainte de budget ou de géographie
    • Cela permet de créer des expériences immersives dans le storytelling, l’art, l’éducation ou la conception
  • La conception de récits spatiaux peut aussi accélérer les processus de visualisation en architecture, design industriel et mode
  • Avec l’extension des expériences immersives fondées sur la VR et la XR, les créateurs indépendants peuvent eux aussi bâtir leurs propres mondes

Robotique

  • Le principal goulet d’étranglement de l’apprentissage robotique est le manque de données d’entraînement, que les world models peuvent compenser
    • En réduisant l’écart entre simulation et réalité, ils permettent d’apprendre dans une grande variété d’environnements
  • L’intelligence spatiale est indispensable pour réaliser des robots collaboratifs avec l’humain
    • L’objectif est de développer des robots capables de comprendre les intentions humaines, d’y répondre avec empathie et de coopérer dans des contextes comme le laboratoire ou le domicile
  • Elle peut aussi servir à construire des environnements d’entraînement et des benchmarks pour des robots de formes variées — nanorobots, robots souples, robots pour les grands fonds ou l’espace

Science, santé, éducation

  • Recherche scientifique : accélération des expériences grâce à des simulations multidimensionnelles, et réduction des coûts de calcul dans des domaines comme le climat ou les matériaux
  • Santé : extension des usages de l’IA fondée sur l’intelligence spatiale pour la découverte de médicaments, le diagnostic par imagerie ou le suivi des patients
  • Éducation : visualisation de concepts complexes et création d’environnements d’apprentissage immersifs adaptés à chaque apprenant
    • Les élèves peuvent explorer la structure cellulaire ou des événements historiques, tandis que les professionnels peuvent s’exercer grâce à des simulations réalistes

Une vision d’une IA centrée sur l’humain

  • Le but du développement de l’IA est d’augmenter les capacités humaines, non de les remplacer
    • Elle doit évoluer dans une direction qui renforce la créativité, la productivité, la connexion aux autres et la satisfaction de vie
  • L’intelligence spatiale est présentée comme une technologie qui étend l’imagination, le soin et la capacité d’exploration humaines
  • Pour concrétiser cette vision, la coopération de l’ensemble de l’écosystème IA — chercheurs, entreprises, décideurs publics — est nécessaire

Conclusion

  • L’IA a déjà transformé toute la société, mais l’intelligence spatiale est présentée comme la prochaine étape d’innovation
  • Les world models ouvrent la voie au développement de machines spatialement intelligentes capables d’interagir harmonieusement avec le monde réel
  • Cela est vu comme un tournant technologique susceptible d’améliorer des activités humaines essentielles, de la recherche sur les maladies au storytelling en passant par le soin
  • De même que l’évolution de l’intelligence humaine a commencé avec l’intelligence spatiale, la vision proposée est que l’accomplissement de l’IA passera lui aussi par l’intelligence spatiale

1 commentaires

 
GN⁺ 2025-11-12
Réactions sur Hacker News
  • En lisant l’article, je ne vois pas très bien ce qu’ils comprennent réellement
    Les notes contiennent très peu d’informations concrètes, on est surtout au niveau de « rassembler des données spatiales comme ImageNet »
    Les personnes qui travaillent sur l’intelligence spatiale viennent surtout du côté des neurosciences
    Dans le papier de synthèse que j’ai écrit, j’expliquais que l’entorhinal cortex, les grid cells et les transformations de coordonnées pourraient être au cœur du sujet
    Tous les animaux transforment des coordonnées en temps réel pour explorer le monde, et les humains sont ceux qui possèdent le plus de représentations coordonnées
    À mon avis, une intelligence de niveau humain consiste à savoir quand et comment transformer des systèmes de coordonnées pour en extraire une information utile
    C’est un texte écrit avant le boom des LLM, mais je pense toujours que cette direction est la bonne

    • J’avais des idées similaires dans les années 1990
      Cela a mené à des travaux sur la détection de collisions, l’animation basée sur la physique, la résolution d’équations non linéaires et la locomotion sur pattes en terrain accidenté, mais ce n’était pas de l’IA
      Aujourd’hui, on mise plutôt sur d’énormes volumes de calcul en espérant qu’un système appris découvre tout seul une représentation interne du monde spatial
      La marche robotique a beaucoup progressé, mais la manipulation en environnement non structuré reste très mauvaise
      Même comparé aux vidéos du labo de McCarthy à Stanford dans les années 1960, la différence n’est pas énorme
      Avant, je pensais qu’il faudrait d’abord atteindre une intelligence de niveau souris ou écureuil avant d’arriver au niveau humain, donc j’ai été surpris de voir l’IA abstraite émerger en premier
      Ces derniers temps, les recherches en génération vidéo qui regardent une courte séquence puis prédisent la scène suivante me semblent intéressantes
      Je pense que le cœur du sens commun, c’est justement la capacité à prédire rapidement « ce qui va se passer ensuite »
    • Il est intéressant de voir que vous, comme le couple Moser (prix Nobel), pensez que les grid cells sont essentielles pour permettre aux animaux de comprendre leur position dans le monde
      Le communiqué du Nobel à ce sujet mérite aussi le détour
    • J’ai abandonné après quelques paragraphes, parce qu’aucune définition de « l’intelligence spatiale » n’arrivait
      Il y a trop de buzzwords de VC du type « transform », « revolutionize », « next frontier », « North Star », ce qui nuit à la crédibilité
    • J’ai bien lu le papier, et surtout la bibliographie était intéressante
      Le papier Nature de 2018 "Vector-based navigation using grid-like representations in artificial agents",
      le papier Nature de 2024 "Modeling hippocampal spatial cells in rodents navigating in 3D environments",
      ainsi que la simulation de grid cells par DeepMind valent aussi le coup d’œil
      Les neurosciences étudient la perception spatiale depuis déjà longtemps
    • Au final, l’important est de savoir si ce type de recherche peut produire une véritable intuition utile
      Copier à l’identique les systèmes biologiques échoue presque toujours
      Les CNN ont été inspirés par le cerveau, mais leur structure est différente, et les LLM ressemblent très peu au cerveau humain
      Les similarités fonctionnelles des LLM ne viennent pas d’une imitation de la structure cérébrale, mais du processus d’entraînement
  • Ce n’est au fond qu’un système de simulation qui fonctionne dans un monde virtuel étroit
    Ce genre de système aide très peu à apprendre la dynamique complexe du monde réel
    Un modèle de monde virtuel n’est qu’un cas particulier simplifié d’un modèle du monde physique, et rien ne montre que cette entreprise ait réellement fait progresser l’intelligence spatiale

  • J’ai récemment eu une expérience étonnante en appliquant l’agentic coding à la CAO
    Je devais ajouter un filetage à un modèle destiné à l’impression 3D, et j’ai utilisé la géométrie computationnelle pour permettre à l’agent de « sentir » le modèle
    J’ai convolué une sphère de rayon donné sur l’ensemble du modèle pour trouver l’emplacement du port et y ajouter le filetage
    Après quelques essais, cela a fini par marcher, et cette expérience m’a fait comprendre que le modèle devait avoir une forme de sens du toucher
    Au final, le modèle 3D devait être implémenté en code pour pouvoir être vérifié

    • Le potentiel de la CAO générative est énorme
      J’ai expérimenté avec OpenSCAD, mais les modèles actuels manquent encore de sens commun sur les connexions de formes
      Avec davantage de jeux de données de CAO basée sur le code, cela deviendra bien plus utile
      Sinon, il faudra au bout du compte un apprentissage fondé sur la simulation physique
    • Je me demande si vous avez utilisé CadQuery ; s’il existe un billet récapitulant ce que vous avez appris, j’aimerais bien le lire
    • J’aimerais en savoir plus sur l’implémentation, et aussi savoir si vous prévoyez d’en faire un article
    • Moi aussi, j’expérimente une approche autour des objets 3D génératifs, donc je serais curieux d’en entendre davantage
    • Contrairement aux prompts pour LLM, décrire des objets géométriques en texte est vraiment difficile
      On tombe vite dans une ambiguïté du type « ne mets pas ça là, mets-le plutôt là-bas »
  • Genie 3 a plus ou moins atteint l’objectif qu’elle décrivait, à savoir un modèle du monde contrôlable avec des lois physiques cohérentes
    Son modèle frère Veo 3 montre aussi des capacités de résolution de problèmes spatiaux
    Genie et Veo sont bien plus proches de sa vision que World Labs
    Mais comme l’article ne mentionne jamais les modèles de Google, il donne l’impression d’un texte de promotion maison

  • Aujourd’hui, l’IA n’apprend qu’à partir du web et n’apprend pas via l’interaction avec les humains
    Les humains apprennent à travers un contexte et une mémoire accumulés sur toute une vie, alors que pour l’IA ce contexte disparaît dès la fin de la conversation
    Avec une énorme mémoire contextuelle personnalisée, sa valeur augmenterait énormément

    • Le Nested Learning de Google Research pourrait être une piste de solution
      Les approches classiques souffrent de catastrophic forgetting lors d’un entraînement supplémentaire, alors que Nested Learning découpe le système en plusieurs petits modèles afin d’éviter de dégrader le reste pendant le réentraînement
    • Le « contexte » humain est le résultat d’une accumulation évolutive sur des milliards d’années
      Notre compréhension de l’espace est immense, presque comme une simulation quantique à l’échelle de l’univers
      En comparaison, ce que nous pouvons aujourd’hui simuler complètement ne dépasse guère le niveau de l’atome ou de la cellule
  • En lisant ce texte, je me suis dit que le premier cas où l’humain a « pensé plus loin que la nature » était peut-être la roue
    La nature est cahoteuse, mais les humains ont construit des routes plates pour rendre le roulement possible
    Le progrès scientifique et technologique est un autre exemple de transmission intergénérationnelle de l’intuition des motifs
    Je ne sais pas si la « superintelligence » est possible sous une autre forme que la vitesse, mais une capacité de pensée en trois dimensions sera essentielle pour que l’IA dépasse les humains et la nature

    • Le corps humain est un système organisé de cellules qui coopèrent
      De la même façon que les vaisseaux sanguins transportent nutriments et signaux, les routes transportent des ressources
      Peut-être que la nature n’a fait qu’étendre cette capacité d’organisation à l’échelle des espèces, et il est donc difficile d’affirmer que l’humain est au-dessus d’elle
  • La cognition humaine est une construction reposant sur une intelligence spatiale
    Elle ne se réduit pas à une pensée abstraite, mais constitue une expérience intégrée fondée sur les sens
    L’évolution n’a pas obtenu la généralisation par un cerveau symbolique, mais par la fusion des perceptions
    L’intelligence ne vient pas d’un algorithme, mais d’une harmonie cohérente entre les sens
    L’exhaustivité sensorielle est la vraie direction à suivre

  • Je suis ce billet de blog qui fait le point sur l’état du raisonnement spatial des LLM
    La conclusion… c’est qu’il reste encore beaucoup de chemin à parcourir

  • Les spatial tokens peuvent aider, mais ils ne sont pas indispensables
    Beaucoup de problèmes physiques peuvent encore se résoudre avec du papier et un crayon
    Il est étonnant qu’une image 512×512 puisse être représentée par 85 tokens, et une vidéo par 263 tokens par seconde
    Cela ressemble à un nouveau problème d’équilibre entre mémoire et embeddings
    Comme dans la question « peut-on faire tourner une pomme dans sa tête ? », les embeddings spatiaux rendront possible une compréhension intuitive de la dynamique
    Dans notre équipe FlyShirley, nous étudions aussi ce domaine via des simulations d’entraînement de pilotes, et nous prévoyons d’essayer le modèle de Fei-Fei

  • Comme l’apprentissage et le raisonnement fondés sur la vidéo demandent des ressources de calcul massives,
    je doute que cette approche soit réellement utile pour des assistants agentiques (code, marketing, gestion d’agenda, etc.)
    J’ai plutôt l’impression qu’il s’agit d’une structure de calcul mieux adaptée au domaine de la robotique