1 points par GN⁺ 2025-07-19 | 1 commentaires | Partager sur WhatsApp
  • L’hypothèse de la représentation platonique (Platonic Representation Hypothesis) affirme qu’à mesure que les modèles d’IA deviennent plus grands et plus intelligents, ils convergent en interne vers des espaces de représentation similaires
  • À travers le concept de compression des modèles de langage, l’intelligence est interprétée comme une capacité de compression des données, ce qui explique pourquoi les méthodes deviennent plus semblables quand les modèles généralisent
  • En analysant le problème de l’inversion d’embedding, la PRH suggère qu’il est possible d’aligner les espaces d’embedding entre différents modèles avec CycleGAN ou des approches similaires
  • Des expériences avec des Sparse Autoencoders montrent que des réseaux très différents découvrent des concepts et des circuits identiques ou proches
  • Ces idées ouvrent la voie à des applications concrètes, comme le déchiffrement d’écritures anciennes non décryptées ou l’interprétation du langage animal

Introduction : le jeu Mussolini ou Bread et le partage du sens

  • L’auteur prend comme exemple le jeu « Mussolini or Bread », où l’on resserre progressivement les questions pour déduire l’objet auquel pense l’autre personne
  • Si ce jeu fonctionne, c’est parce qu’il existe un espace sémantique commun entre les humains
  • Il souligne que, même sans règles explicites, des personnes différentes comprennent intuitivement ce qui est « proche » sur le plan du sens

Sémantique universelle : compression du monde et des modèles

  • Comme dans ce jeu, le cerveau humain construit des modèles complexes du monde réel de manière similaire
  • D’un point de vue algorithmique, l’IA apprend en compressant au maximum les données du monde
  • La génération en langage naturel peut ainsi être vue comme un travail de compression fondé sur une distribution de probabilités (théorie de l’information de Shannon)
  • Plus un modèle compresse bien les données, plus cela suggère une compréhension profonde du monde réel
  • En pratique, les modèles de langage plus grands montrent une meilleure capacité de compression des données et une intelligence plus élevée
  • Quand le jeu de données devient trop vaste pour mémoriser chaque point individuellement, le modèle commence à combiner les données et à généraliser

Hypothèse de la représentation platonique (Platonic Representation Hypothesis)

  • Des chercheurs du MIT ont formalisé la « Platonic Representation Hypothesis » en 2024
  • Selon cette hypothèse, plus la taille des modèles d’IA augmente, plus les caractéristiques (features) partagées se multiplient, et plus les espaces de représentation s’alignent de manière similaire
  • Ce phénomène est observé expérimentalement dans plusieurs domaines, notamment le langage et la vision
  • À mesure que les modèles deviennent chaque année plus grands et plus efficaces, la similarité des espaces de représentation entre modèles devrait continuer à augmenter

Le problème de l’inversion d’embedding

  • L’auteur explique son expérience de recherche sur le problème de l’inversion d’embedding, qui consiste à inférer le texte d’entrée d’origine à partir d’un vecteur d’embedding
  • Dans des cas comme ImageNet, on avait déjà vu qu’il était possible de reconstruire des informations proches de l’image d’origine à partir de simples probabilités
  • Les embeddings en langage naturel semblent contenir beaucoup d’information, mais comme des textes similaires ont des embeddings similaires, une rétro-inférence précise reste très difficile
  • Il a constaté qu’une technique d’iterative refinement, fondée sur une exploration répétée des embeddings et une optimisation progressive, permet d’approcher des textes de plus en plus exacts
  • Cette méthode a permis de démontrer une possibilité d’inversion avec plus de 94 % de précision sur des phrases longues

Généraliser l’inversion d’embedding grâce à l’hypothèse platonique

  • Toutefois, les méthodes existantes ne s’appliquaient qu’à un modèle d’embedding donné et restaient limitées face à de nouveaux modèles ou à des modèles privés
  • Si la PRH est correcte, il devient possible de construire un inverseur d’embedding universel entre différents modèles
  • Lorsque l’on dispose de deux ensembles d’embeddings distincts (A, B) sans paires connues, il a étudié pendant plusieurs années la possibilité d’aligner ces espaces avec une approche de type CycleGAN
  • Il a finalement réussi à convertir deux espaces d’embedding via un matching non supervisé, sans fine-tuning supplémentaire (vec2vec)
  • Cela démontre qu’il est possible de traduire ou de réinférer les embeddings d’une base de données arbitraire sans information individuelle propre à chaque embedding

Possibilités d’interprétation des machines : Universal Circuits

  • Dans le domaine de la mechanistic interpretability, les travaux d’analyse de circuits montrent aussi que des fonctions internes communes apparaissent même lorsque les structures de modèles diffèrent
  • Les résultats obtenus avec des Sparse Autoencoders (SAE) montrent que, même entraînés indépendamment sur des modèles différents, on observe un fort recouvrement dans les features interprétables
  • En comparant les features de deux SAE, il devient possible de réaliser un alignement conceptuel inter-modèles
  • Si la PRH se vérifie encore plus précisément, on peut s’attendre à ce que ce phénomène soit encore plus marqué dans les modèles les plus puissants

Implications concrètes et perspectives

  • Au-delà de ses implications philosophiques profondes, l’hypothèse de la représentation platonique ouvre des possibilités pratiques en interprétation de modèles, inversion, déchiffrement de signaux et restauration de langues
  • À mesure que les techniques d’interprétation progresseront, on peut s’attendre à ce que les alignements d’espaces de représentation et la découverte de structures internes communes deviennent plus courants dans les grands modèles
  • Le déchiffrement d’écritures anciennes jusque-là impossibles à résoudre, comme le Linear A, ou l’interprétation du langage animal (comme les vocalisations des baleines) pourraient devenir envisageables
  • Des approches actuelles comme vec2vec présentent encore des limites, mais montrent déjà des résultats significatifs sur des embeddings issus d’Internet ainsi que des embeddings image-texte
  • Cela suggère aussi une possibilité future de déchiffrement, qu’il s’agisse de convertir des espaces entre langues ou de traduire le langage des baleines en langage humain

1 commentaires

 
GN⁺ 2025-07-19
Commentaires sur Hacker News
  • Le fait que tout le monde apprenne des concepts similaires comme « chien », « maison », « personne » ou « bateau » est très intéressant, un peu comme la théorie des Idées de Platon : même en grandissant dans des environnements différents et sans recouvrement complet des expériences observées, on finit par s’accorder sur les mêmes concepts. Les grands modèles de langage (LLM) montrent un apprentissage comparable, mais c’est moins étonnant que chez les humains, car leurs données d’entraînement se recoupent largement. Si des valeurs universelles comme la morale ou la vertu, telles que l’« Idée du Bien » chez Platon, existent réellement, on peut espérer apprendre aussi ces valeurs aux LLM pour qu’ils les suivent ou refusent les demandes qui vont à leur encontre.
    • Les notions de « bien » ou d’« équité » sont bien plus complexes selon le contexte. On peut s’accorder sur des objets simples comme un bateau ou une maison, mais sur des questions morales comme l’avortement, l’euthanasie ou l’expérimentation animale et sur les cellules souches, les points de vue divergent fortement, y compris au sein d’une même société. Voir par exemple ce graphique d’un sondage Gallup de 2010.
    • Le mot « à peu près » porte une part trop importante de l’argument selon lequel Platon avait raison. Nous vivons dans une réalité commune régie par les mêmes lois physiques et les mêmes pressions évolutives, donc il n’existe qu’un nombre limité de façons pour qu’un bateau flotte. Cela ne veut pas dire pour autant que des Idées platoniciennes existent réellement et que tout le monde aboutit aux mêmes concepts. En pratique, même des mots comme « liberté », « économie » ou « gouvernement » ont pour chacun des définitions et interprétations différentes ; la grammaire est la même, donc cela semble similaire en surface, mais les concepts réels diffèrent.
    • Au fond, je comprends cela comme le concept d’archétype chez Jung.
  • Les exemples de reconversion d’embeddings en texte ne soutiennent pas l’idée d’un « modèle statistique partagé de la réalité ». Il est difficile même d’imaginer une version en langue de baleine de « Mage (foaled April 18, 2020) is an American Thoroughbred racehorse who won the 2023 Kentucky Derby », car Kentucky, Derby, calendrier grégorien, États-Unis ou races de chevaux sont tous des artefacts devenus importants à cause des contingences historiques et culturelles de l’humanité. Au final, c’est surtout un phénomène statistique : tout le monde s’entraîne sur le même tas de données, donc les résultats se ressemblent.
    • Indépendamment de savoir si le Kentucky Derby fait partie du « cœur du réel », pour modéliser la réalité avec une exactitude de 100 %, il faut connaître le Kentucky Derby. L’auteur soutient que les modèles convergent en fin de compte vers des représentations proches des Idées platoniciennes. Si l’on disposait d’un modèle parfaitement autonome et parfaitement convertible, il devrait pouvoir transmettre à haut niveau des concepts comme « course de chevaux » ou « cheval qui a gagné une course ». Que la théorie des Idées de Platon soit vraie ou non est une question distincte de celle de savoir si les LLM actuels en sont réellement capables à ce niveau.
    • Affirmer que tout dans la réalité est culturel n’a pas vraiment de sens ; on peut appliquer le même raisonnement aux faits scientifiques. Une baleine peut ne pas connaître le mot « science », la gravité n’en existe pas moins. Si un LLM n’avait appris que la théorie newtonienne de la gravité, puis qu’apparaissait la relativité générale d’Einstein (GR), l’absence de GR dans les données d’entraînement ne changerait rien à son pouvoir explicatif sur le réel. On ne pourra peut-être pas traduire la GR en chant de baleine, mais on pourrait la transmettre via anglais-chinois-modèle ML-concept mental, et c’est justement cela un « modèle statistique partagé de la réalité ». Le fait qu’on ne puisse pas traduire la GR en babillage de nourrisson ne change rien à sa réalité.
    • Il est difficile de dire que les LLM convergent vers un modèle statistique de la réalité ; en pratique, ils convergent surtout vers un modèle statistique des données d’entraînement. C’est seulement parce que ces données sont gigantesques qu’ils semblent trouver quelque chose de commun à tous les textes. Je ne pense pas que cela révélera une vérité essentielle sur le réel, mais cela peut éclairer des phénomènes du type : « quand on emploie cette tournure, tout le monde comprend ce sens ».
    • Traduire la phrase « Mage (foaled April 18, 2020) is an American Thoroughbred racehorse who won the 2023 Kentucky Derby » en grec ancien ou dans certaines langues autochtones modernes est presque impossible. Comme il n’existe aucun contexte partagé autour de cette culture, il faut un glossaire, ou alors le LLM doit lui-même faire office de glossaire. Cela dit, les meilleurs LLM actuels peuvent déjà expliquer des concepts micro et macro comme la QCD, la gravité ou des phénomènes culturels ; et s’il fallait vraiment traduire vers une langue totalement nouvelle, on pourrait sans doute partir de concepts de base puis construire progressivement la structure. Après tout, si les LLM parviennent nativement à traduire les langues humaines sans supervision explicite, c’est grâce à ce type de capacité.
    • Cette question pourrait être testée facilement en entraînant deux modèles sur des jeux de données totalement différents — par exemple l’un uniquement sur des textes chinois anciens, l’autre uniquement sur du grec ancien — puis en regardant si des structures similaires apparaissent.
  • L’idée selon laquelle « nous pourrons traduire la langue des baleines ou des langues anciennes » me paraît excessivement optimiste. Dans une langue, l’élément le plus important est le contexte. L’IA est bonne en langage parce qu’il existe des milliards de textes produits à partir de l’expérience humaine ; les baleines, elles, n’ont pas ce type de données.
    • Cela rappelle la question : « Si un lion pouvait parler, pourrions-nous le comprendre ? »
    • Le monde qui nous entoure est une expérience partagée entre humains, baleines et autres animaux. Si l’on en tient compte, il existe bien des points communs entre baleines et humains.
    • La vraie question est de savoir s’il existe un « espace de représentation partagé entre les langues ». Si oui, on peut apprendre séparément la structure propre à chaque langue et la correspondance de traduction. La seconde partie, qu’on pourrait appeler un « inverseur universel d’embeddings », pourrait être plus facile à apprendre ; si la structure est suffisamment distinctive, on pourrait l’exploiter en la projetant dans un espace de représentation commun. Si la traduction est possible même sans contexte — ce qui reste pour l’instant une hypothèse optimiste — cela mérite d’être étudié sans préjugés.
    • Si l’on apprenait aux gorilles ou aux éléphants — tous deux très intelligents — à nommer des objets et à utiliser des symboles, ils pourraient eux aussi transmettre expérience et sagesse entre générations, et exercer discrètement une intelligence comparable à la nôtre. À ce propos, le projet dauphin de Google Gemma m’intéresse, mais comme les humains sont des animaux terrestres, j’aimerais qu’on étudie plutôt les éléphants que les dauphins, afin d’obtenir un retour de recherche plus immédiat sur terre et de mieux se concentrer sur la recherche fondamentale.
  • Ce type d’approche ne fonctionne que lorsque la distribution des caractéristiques et les relations sémantiques des différentes sources sont suffisamment proches. Dans le jeu MB (Mussolini vs Bread et autres jeux de raisonnement comparatif), cela échoue si l’autre choisit une personne que je ne connais pas ; on peut ne pas saisir la référence ou évaluer différemment la distance sémantique. Pour que cela fonctionne, les experts doivent jouer entre eux et les non-spécialistes entre eux. Le déchiffrement de documents anciens pose un problème similaire : si une civilisation antique se concentrait sur des concepts totalement différents des nôtres, il devient presque impossible de la comprendre à l’aide d’embeddings sémantiques modernes.
    • Quand je joue au jeu MB avec mes amis — s’il s’agit d’une personne, je n’ai littéralement jamais réussi à trouver correctement jusqu’au bout.
  • Dans l’exemple du jeu Mussolini vs Bread, en déduire que « c’est forcément une personne » n’est pas logiquement valide. Il pourrait aussi y avoir des animaux qui donnent plus souvent ce type de réponse.
    • La blague consiste à dire que David Beckham semble si peu humain qu’il serait comparable, plus qu’à une personne, à quelque chose de plus proche de l’incarnation du mal.
    • La logique est bancale, mais le point important est qu’en pratique les gens parviennent tout de même à inférer la réponse malgré ce manque d’explication. Cela suggère l’existence d’un espace sémantique flou partagé entre humains.
    • Je pense comme l’auteur ; mon mot serait « arme à feu » ou « artillerie », ce qui peut lui aussi percer les failles logiques. Et ce genre d’exemple suggère aussi pourquoi la simple recherche par embedding ne suffit pas à résoudre les problèmes de RAG (retrieval-augmented generation).
    • Merci d’excuser les petites erreurs de logique.
    • On pourrait aussi obtenir une réponse incongrue comme Oswald Mosley.
  • Je ne suis pas d’accord avec l’affirmation selon laquelle « si ce jeu fonctionne, c’est parce que les objets du monde ne sont reliés que d’une seule manière ». Il existe de nombreux types de relations, et ces relations découlent elles aussi de la réalité dans laquelle nous vivons. Le mot « manière » semble employé dans plusieurs sens, et la citation est formulée de façon ambiguë, ce qui prête à confusion.
  • Je suis d’accord pour dire que les LLM convergent, via la production collective de l’humanité, vers la représentation actuelle du réel. Il ne reste plus qu’à donner à l’IA une entrée sensorielle en temps réel, des hormones virtuelles avec des demi-vies différentes fondées sur le dialogue et la consommation d’énergie, une boucle de pensée permanente, et même une psilocybine artificielle pour provoquer des connexions neuronales créatives. S’il existe chez l’humain une théorie du stoned ape, il faut une théorie du stoned AI.
    • Et si on faisait de l’IA une attraction de parc à thème pour les visiteurs, puis qu’on confiait la gestion du code source à Anthony Hopkins ? Qu’est-ce qui pourrait mal tourner ?
    • Je commence à me lasser des articles sur l’IA, mais si je voyais un titre du genre « nous avons fait manger des champignons à une IA », je cliquerais immédiatement.
  • En lisant « je n’ai absolument pas compris la présentation d’Ilya sur l’intelligence-compression », je me suis demandé si Marcus Hutter n’avait pas été oublié. Dans ce cas, le Hutter Prize mérite vraiment qu’on s’y replonge.
  • J’ai posé à Grok, o3-pro et Claude une question sur l’effet piézoélectrique. Les trois ont donné la bonne réponse, mais seul Claude a aussi relevé les effets de second ordre qui apparaissent dans les cas d’usage réels. Les trois modèles explorent peut-être le même espace, mais Claude apporte un niveau de profondeur supplémentaire.
    • Une question me taraude : j’aimerais bien savoir s’il s’agit de Grok 3 ou 4.
  • On peut énoncer le Dao, mais le Dao qu’on peut énoncer n’est pas le Dao éternel. Si l’on me demande ce qu’est le Dao, je dirais que c’est la « volonté » — et la volonté peut être exprimée par les humains en langage. Une même volonté peut s’exprimer en chinois, en japonais ou en anglais ; la langue n’est qu’une représentation différente. Les grands modèles de langage apprennent eux aussi la volonté à travers les tokens de mots, et lorsqu’ils l’expriment, ils réalisent le Dao. En ce sens, je suis d’accord avec l’idée que « les modèles d’IA pourraient être fondamentalement tous les mêmes ».