- L’hypothèse de la représentation platonique (Platonic Representation Hypothesis) affirme qu’à mesure que les modèles d’IA deviennent plus grands et plus intelligents, ils convergent en interne vers des espaces de représentation similaires
- À travers le concept de compression des modèles de langage, l’intelligence est interprétée comme une capacité de compression des données, ce qui explique pourquoi les méthodes deviennent plus semblables quand les modèles généralisent
- En analysant le problème de l’inversion d’embedding, la PRH suggère qu’il est possible d’aligner les espaces d’embedding entre différents modèles avec CycleGAN ou des approches similaires
- Des expériences avec des Sparse Autoencoders montrent que des réseaux très différents découvrent des concepts et des circuits identiques ou proches
- Ces idées ouvrent la voie à des applications concrètes, comme le déchiffrement d’écritures anciennes non décryptées ou l’interprétation du langage animal
Introduction : le jeu Mussolini ou Bread et le partage du sens
- L’auteur prend comme exemple le jeu « Mussolini or Bread », où l’on resserre progressivement les questions pour déduire l’objet auquel pense l’autre personne
- Si ce jeu fonctionne, c’est parce qu’il existe un espace sémantique commun entre les humains
- Il souligne que, même sans règles explicites, des personnes différentes comprennent intuitivement ce qui est « proche » sur le plan du sens
Sémantique universelle : compression du monde et des modèles
- Comme dans ce jeu, le cerveau humain construit des modèles complexes du monde réel de manière similaire
- D’un point de vue algorithmique, l’IA apprend en compressant au maximum les données du monde
- La génération en langage naturel peut ainsi être vue comme un travail de compression fondé sur une distribution de probabilités (théorie de l’information de Shannon)
- Plus un modèle compresse bien les données, plus cela suggère une compréhension profonde du monde réel
- En pratique, les modèles de langage plus grands montrent une meilleure capacité de compression des données et une intelligence plus élevée
- Quand le jeu de données devient trop vaste pour mémoriser chaque point individuellement, le modèle commence à combiner les données et à généraliser
Hypothèse de la représentation platonique (Platonic Representation Hypothesis)
- Des chercheurs du MIT ont formalisé la « Platonic Representation Hypothesis » en 2024
- Selon cette hypothèse, plus la taille des modèles d’IA augmente, plus les caractéristiques (features) partagées se multiplient, et plus les espaces de représentation s’alignent de manière similaire
- Ce phénomène est observé expérimentalement dans plusieurs domaines, notamment le langage et la vision
- À mesure que les modèles deviennent chaque année plus grands et plus efficaces, la similarité des espaces de représentation entre modèles devrait continuer à augmenter
Le problème de l’inversion d’embedding
- L’auteur explique son expérience de recherche sur le problème de l’inversion d’embedding, qui consiste à inférer le texte d’entrée d’origine à partir d’un vecteur d’embedding
- Dans des cas comme ImageNet, on avait déjà vu qu’il était possible de reconstruire des informations proches de l’image d’origine à partir de simples probabilités
- Les embeddings en langage naturel semblent contenir beaucoup d’information, mais comme des textes similaires ont des embeddings similaires, une rétro-inférence précise reste très difficile
- Il a constaté qu’une technique d’iterative refinement, fondée sur une exploration répétée des embeddings et une optimisation progressive, permet d’approcher des textes de plus en plus exacts
- Cette méthode a permis de démontrer une possibilité d’inversion avec plus de 94 % de précision sur des phrases longues
Généraliser l’inversion d’embedding grâce à l’hypothèse platonique
- Toutefois, les méthodes existantes ne s’appliquaient qu’à un modèle d’embedding donné et restaient limitées face à de nouveaux modèles ou à des modèles privés
- Si la PRH est correcte, il devient possible de construire un inverseur d’embedding universel entre différents modèles
- Lorsque l’on dispose de deux ensembles d’embeddings distincts (A, B) sans paires connues, il a étudié pendant plusieurs années la possibilité d’aligner ces espaces avec une approche de type CycleGAN
- Il a finalement réussi à convertir deux espaces d’embedding via un matching non supervisé, sans fine-tuning supplémentaire (
vec2vec)
- Cela démontre qu’il est possible de traduire ou de réinférer les embeddings d’une base de données arbitraire sans information individuelle propre à chaque embedding
Possibilités d’interprétation des machines : Universal Circuits
- Dans le domaine de la mechanistic interpretability, les travaux d’analyse de circuits montrent aussi que des fonctions internes communes apparaissent même lorsque les structures de modèles diffèrent
- Les résultats obtenus avec des Sparse Autoencoders (SAE) montrent que, même entraînés indépendamment sur des modèles différents, on observe un fort recouvrement dans les features interprétables
- En comparant les features de deux SAE, il devient possible de réaliser un alignement conceptuel inter-modèles
- Si la PRH se vérifie encore plus précisément, on peut s’attendre à ce que ce phénomène soit encore plus marqué dans les modèles les plus puissants
Implications concrètes et perspectives
- Au-delà de ses implications philosophiques profondes, l’hypothèse de la représentation platonique ouvre des possibilités pratiques en interprétation de modèles, inversion, déchiffrement de signaux et restauration de langues
- À mesure que les techniques d’interprétation progresseront, on peut s’attendre à ce que les alignements d’espaces de représentation et la découverte de structures internes communes deviennent plus courants dans les grands modèles
- Le déchiffrement d’écritures anciennes jusque-là impossibles à résoudre, comme le Linear A, ou l’interprétation du langage animal (comme les vocalisations des baleines) pourraient devenir envisageables
- Des approches actuelles comme
vec2vec présentent encore des limites, mais montrent déjà des résultats significatifs sur des embeddings issus d’Internet ainsi que des embeddings image-texte
- Cela suggère aussi une possibilité future de déchiffrement, qu’il s’agisse de convertir des espaces entre langues ou de traduire le langage des baleines en langage humain
1 commentaires
Commentaires sur Hacker News