7 points par GN⁺ 2025-05-21 | 1 commentaires | Partager sur WhatsApp
  • Le deep learning peut être compris comme une succession de transformations topologiques qui transforment les données de manière significative
  • Un réseau de neurones agit comme un générateur de topologie qui transforme les données dans un espace de grande dimension afin de rendre séparables des données qui ne l’étaient pas à l’origine
  • Les données existent sur des variétés (manifolds) de grande dimension, et le réseau de neurones apprend la structure de ces variétés pour des tâches utiles comme la classification, la traduction ou l’inférence
  • Les recherches récentes en IA introduisent diverses techniques de supervision et d’apprentissage par renforcement (dont le RLHF) pour se déplacer vers de meilleurs points sur la variété de raisonnement
  • Toutes les informations, qu’il s’agisse du réseau de neurones lui-même, d’images, de texte ou de logique de raisonnement, peuvent être représentées comme des variétés, et le réseau de neurones fonctionne comme un découvreur universel de topologie

Relation entre deep learning et topologie

  • La topologie est une branche des mathématiques qui étudie les propriétés invariantes lors de la transformation des objets
  • Les réseaux de neurones de deep learning modifient progressivement la distribution et la structure des données en appliquant de façon répétée des transformations linéaires et non linéaires dans plusieurs dimensions aux données d’entrée (par ex. multiplication matricielle, tanh)
  • Chaque opération dans les couches du réseau peut être interprétée comme une transformation géométrique, et l’accumulation de ces transformations permet de séparer et de classifier des structures de données complexes
  • Cette propriété permet, sur divers jeux de données, de distinguer des classes complexes qu’il était initialement impossible de séparer à l’aide d’une seule ligne ou surface

Expansion dimensionnelle et séparation des données

  • Même des données qui se chevauchent et sont impossibles à distinguer sur un plan bidimensionnel deviennent facilement séparables une fois projetées dans une dimension supérieure (haute dimension)
  • Contrairement aux humains, les réseaux de neurones peuvent effectuer des calculs dans des dimensions arbitrairement élevées, ce qui leur permet de traiter des motifs de données très complexes
  • Par exemple, un problème de classification comme chiens et chats dans des photos peut être reconstruit en haute dimension comme une structure mathématiquement séparable (une variété)

Sens et rôle des réseaux de neurones profonds

  • Un réseau de neurones est un « outil qui génère de la topologie », réorganisant les données d’entrée en une structure porteuse de sens
  • La fonction de perte (loss function) définit quelles propriétés des données doivent être apprises, et conduit à créer une surface (topology) adaptée à diverses tâches comme la classification, la traduction ou la prédiction
  • Toutes les données porteuses de sens (texte, image, son, etc.) sont stockées sous forme de vecteurs numériques de grande dimension (embedding vectors), permettant des opérations mathématiques souples dans cet espace

Variétés (manifolds) et représentation du sens

  • Les couleurs, les images, les mots, et même des catégories comme les meubles, tous les types d’information et de concepts existent dans un espace de variétés de grande dimension
  • Par exemple, toutes les valeurs de pixels d’une image RGB sont représentées par un immense vecteur, ce qui permet d’analyser des transformations significatives et des similarités sur la variété des images
  • Grâce aux opérations d’embedding, des concepts liés sémantiquement (par ex. king - man + woman = queen) peuvent être placés à des positions proches

Réseaux de neurones, raisonnement et approche par les variétés des stratégies d’apprentissage

  • Le raisonnement humain lui-même peut être modélisé comme un cluster sur une variété de grande dimension, et les réseaux de neurones se déplacent progressivement le long de cette structure vers un raisonnement de meilleure qualité
  • La limite actuelle des grands modèles de langage (LLM) est que la simple statistique du langage pur (next-token prediction) ne suffit pas à atteindre un raisonnement de niveau humain
  • Pour dépasser cette limite, on utilise plusieurs approches fondées sur l’apprentissage par renforcement, comme la supervision, le RLHF, Chain-of-Thought, ou encore la collecte de reasoning traces de haute qualité
  • Dans des travaux récents sur des modèles de raisonnement robustes, comme Deepseek R1, on tente de dépasser les limites et les coûts de l’évaluation humaine traditionnelle en sélectionnant automatiquement les « bons raisonnements » à l’aide de critères objectifs (par ex. tests unitaires, exactitude des réponses à des problèmes mathématiques)

Réseaux de neurones et exploitation de la structure de variété du modèle lui-même

  • Tous les paramètres (poids) d’un réseau de neurones peuvent eux aussi être représentés comme un immense vecteur, interprétable comme une variété dans différents espaces de sens (semantic spaces)
  • En étendant au espace des paramètres de réseaux de neurones le concept des modèles de diffusion pour la génération d’images, il devient possible de réutiliser efficacement les diverses propriétés de modèles pretrained existants, ou de favoriser une initialisation rapide et la création de nouveaux modèles
  • Les progrès des techniques d’exploration de l’espace d’embedding des modèles pourraient permettre à l’avenir un développement de l’IA plus rapide et plus efficace

Conclusion et implications

  • Le domaine du deep learning reste encore informel et fortement dépendant de l’intuition, mais une pensée topologique aide grandement à comprendre le fonctionnement de modèles complexes
  • À mesure que la compréhension des espaces d’embedding et des structures de variété s’élargira, il deviendra possible de développer et d’analyser l’IA de manière plus concrète et plus systématique

1 commentaires

 
GN⁺ 2025-05-21
Discussion sur Hacker News
  • À propos de cet article, rédigé à partir d’un billet de mon blog de 2014, j’ai vraiment essayé d’utiliser la topologie de manière intensive comme moyen de comprendre les réseaux de neurones. J’en avais partagé les résultats dans les deux billets de suivi ci-dessous

    • « l’hypothèse des représentations linéaires » — l’idée que les concepts (features) dans un réseau de neurones correspondent à des directions particulières
    • le concept de « circuits » — la structure en réseau formée par l’assemblage de ces features
      Comme lectures associées, je recommande les articles suivants
    • En ce qui concerne la manière de comprendre les réseaux de neurones, je pense souvent au malentendu suivant

      • l’affirmation selon laquelle les LLM ne seraient guère plus qu’une version légèrement meilleure des anciens modèles n-gram
      • le fait que l’expression « ce n’est qu’une prédiction du token suivant » donne l’impression que le modèle est simple en soi
        On retrouve souvent cette nuance qui met sur le même plan les LLM et les modèles n-gram, que ce soit dans les réactions populaires au post de Karpathy sur les RNN ou dans l’article sur le « stochastic parrot ». Autrefois, les deux approches paraissaient plus proches, mais depuis les progrès considérables des modèles récents, cette équivalence tient beaucoup moins bien
    • Je repense à mon expérience lorsque j’ai essayé d’appliquer la topologie dans des situations réelles. Depuis que j’ai appris la topologie pour la première fois en 2011, j’ai tenté l’expérience de manière intermittente jusqu’à aujourd’hui, mais je reste sceptique vis-à-vis de l’affirmation courante selon laquelle « les données réelles se rapprochent de variétés lisses de faible dimension ». J’aimerais creuser davantage pour savoir si cette propriété est réellement vérifiée sur les données du monde réel, ou si elle résulte d’une distorsion volontaire introduite par nos méthodes de réduction de dimension pour des raisons d’efficacité, mais je manque malheureusement de temps

    • Cela fait longtemps que je lis avec intérêt tes textes sur les « circuits ». L’hypothèse des représentations linéaires me paraît particulièrement convaincante, au point que j’avais même rédigé un premier brouillon de recension sur Toy Models of Superposition. En revanche, l’analyse en termes de « circuits » me semble trop centrée sur l’architecture Transformer, ce qui la rend moins attirante à mes yeux.
      Des modèles comme les GAN, les VAE ou CLIP semblent modéliser explicitement des variétés. Même dans des modèles simples, l’optimisation peut rassembler des features semblables dans une même direction, mais on observe aussi empiriquement des cas où des features similaires se retrouvent dans des directions orthogonales. Cela semble probablement davantage lié à la fonction de perte optimisée
      Toy Models of Superposition utilise une MSE, donc le comportement ressemble à celui d’une tâche de régression/compression de type autoencoder. Les motifs d’interférence entre features co‑occurrents ont alors tendance à être importants. Mais si l’objectif reposait sur une loss contrastive, je pense que ce comportement de minimisation des interférences changerait

    • Je voulais signaler qu’il y a déjà eu des discussions Hacker News autour de mon ancien article
      Neural Networks, Manifolds, and Topology (2014)

    • En physique, il est intéressant de constater que des symétries globales différentes (variétés topologiques) peuvent partager la même structure métrique (géométrie locale). Par exemple, dans les équations de champ d’Einstein, une même solution du tenseur métrique peut exister sur des variétés topologiquement différentes.
      À l’inverse, si l’on regarde les solutions du Ising Model, plusieurs solutions peuvent exister pour une même structure topologique de réseau, et près du point critique, la structure topologique du réseau peut en fait ne plus être si importante.
      Ce n’est qu’une analogie simple, mais cela suggère que les détails importants de la dynamique ne résident pas dans la topologie du système. L’histoire est bien plus compliquée

  • Si la topologie était vraiment l’élément central, nous n’essaierions pas de déformer les variétés pour les aplatir afin de faciliter la recherche de similarité. En pratique, le cœur du sujet, c’est la géométrie et la mesure qui lui est adaptée. Dans la vie réelle aussi, nous voulons une structure qui permette de comparer les choses
    Pendant l’entraînement d’un réseau de neurones, les variétés se déforment aussi topologiquement. Cela amène à se demander : « comment la topologie change-t-elle pendant l’entraînement ? » Personnellement, j’imagine qu’au début la topologie fluctue violemment, puis se stabilise peu à peu, avant de laisser place à des ajustements géométriques plus fins. On peut citer les articles suivants

    • Si tu as déjà utilisé des GAN ou des VAE, tu peux réellement observer ce processus de changement topologique. À différents checkpoints pendant l’entraînement, des outils comme UMAP ou TSNE permettent de voir comment les points se déplacent dans l’espace de grande dimension
      Le processus que tu imaginais — « changements violents au début, puis stabilisation, puis micro-ajustements géométriques » — correspond bien à la réalité. À ce moment-là, les changements violents du début dépendent aussi fortement du learning rate, du choix de l’optimizer, etc.

    • Si l’on veut être pointilleux, on pourrait dire qu’il s’agit ici d’algèbre linéaire appliquée, mais formulé ainsi, cela perd un peu de son charme

  • Le titre me paraît maintenant banal et inexact. Cela dit, j’ai trouvé le contenu intéressant à lire
    La topologie est la branche des mathématiques qui traite de la structure minimale restant lorsqu’on efface les différentes contraintes géométriques comme la distance, l’angle ou la direction. Adopter un point de vue topologique, c’est justement ne regarder que les relations qui subsistent essentiellement malgré ces déformations violentes
    Les concepts topologiques peuvent être utiles en machine learning, mais en pratique les informations géométriques comme l’échelle, la distance ou l’angle jouent un rôle bien plus important dans la nature des données. Par exemple, ignorer l’échelle pour distinguer un chat d’un tigre conduirait à un résultat absurde
    L’approche topologique devient utile surtout lorsqu’on est face à beaucoup d’informations peu fiables ; dire que le deep learning repose sur la topologie va trop loin

    • Comme tu le dis, la topologie est utile quand on ne peut pas se fier aux distances, angles, longueurs, etc., et en pratique nous manipulons effectivement des données peu fiables. Qu’une canette de cola et un panneau stop soient relativement proches dans l’espace des pixels d’une image n’a aucun sens. Les réseaux de neurones effectuent réellement les « déformations violentes » dont tu parles

    • Dès qu’on passe à l’implémentation réelle, des détails dont on pourrait se passer « si c’était vraiment de la topologie », comme le nombre de couches, la quantification ou la précision en virgule flottante, jouent en fait un rôle important

    • Le terme « topologie » possède, au sens du dictionnaire, deux définitions. Considérer que le concept de topologie se limite aux propriétés que tu poses comme prémisses revient à s’en tenir à une partie seulement de ses définitions

  • Je ne comprends pas bien pourquoi l’idée de trouver une surface de séparation est appelée ici « topologie ».
    Par exemple, l’explication selon laquelle « si l’on apprend à traduire, le modèle apprend une topology qui place bread près de pan, et une photo de chat près du mot cat » me paraît justement très éloignée de la topologie, puisqu’on parle ici de ce qui est « proche » ou « loin »
    Dans un espace topologique, même si deux points sont proches, on peut étirer l’espace et les éloigner autant qu’on veut tout en restant dans « le même espace topologique » (c’est bien l’idée derrière la blague « une tasse à café et un donut ont la même topologie »)
    En pratique, une approche d’algèbre géométrique — où la structure est celle de points situés près d’une variété algébrique — semblerait plus appropriée. Au fond, ce qui compte, c’est la géométrie et la distance

    • S’il faut définir la topologie de manière large, je dirais que c’est l’étude d’espaces mathématiques où l’on peut parler de « proche » et de « lointain » (au sens des voisinages), même sans notion de distance. Les différentes définitions des ouverts reviennent à choisir une topologie, ce qui détermine ensuite des propriétés comme la continuité, la compacité ou la connexité.
      Les espaces métriques ne sont qu’un cas particulier des espaces topologiques.
      Cela ne veut pas dire pour autant que la topologie soit toujours la meilleure grille de lecture pour comprendre les réseaux de neurones. L’auteur original lui-même a désormais changé d’avis
      Je voulais simplement dissiper ce malentendu. Voir aussi https://en.wikipedia.org/wiki/General_topology

    • Je suis d’accord à 100 % sur le fait que cela n’a rien à voir avec la topology. Si un article porte sur topology et le deep learning, j’aimerais que la confusion reste limitée au seul côté topology

    • J’ai utilisé le mot « topology » de manière un peu idiomatique dans ce que je viens d’écrire. Plus précisément, j’aurais dû parler de « surface » de séparation

  • Je pense qu’envisager l’apprentissage à travers le prisme des variétés est une formulation puissante
    Dans les espaces de grande dimension, j’ai souvent le sentiment que le reasoning lui-même devient pratiquement indissociable des faits
    J’ai beaucoup écrit à ce sujet dans des journaux personnels ou des commentaires d’actualité, autour de ces « probabilistic reasoning manifolds ».
    Mon idée est qu’une variété faite d’espaces de motifs se forme essentiellement via un apprentissage probabiliste, et que le raisonnement réel ne s’effectue pas sous forme propositionnelle, mais de manière probabiliste. On peut éventuellement retrouver certains « axiomes » en cherchant des points fixes ou des attracteurs, mais au fond on analyse une variété probabiliste formée à partir des données d’entrée
    Le raisonnement et les données sont imbriqués, et il est impossible de les séparer complètement
    Apprendre (décomposer) des relations hors contexte — c’est précisément cela, la « decontextualization ». Mais pour qu’une analyse garde du sens dans de nouvelles situations ou de nouveaux domaines, il faut nécessairement qu’elle soit suivie d’une « recontextualization ».
    Pour une explication plus longue, voir https://news.ycombinator.com/item?id=42871894

    • S’agissant du concept général de « raisonnement », c’est-à-dire de manipulation mentale de représentations propositionnelles, j’ai du mal à comprendre l’idée selon laquelle « le vrai raisonnement s’exprime par des axiomes, pas par des probabilités »
      Si les animaux étaient incapables de traiter des énoncés propositionnels autrement que de manière non probabiliste, cela reviendrait à dire que le raisonnement logique leur est totalement impossible, ce qui n’explique pas la capacité réelle de raisonnement observée chez les animaux
      Exemple : « si l’araignée est entrée dans la boîte A, alors elle n’est pas dans l’autre boîte », ou toute structure logique simple de ce genre
  • Les données réelles ne vivent pas réellement sur des variétés. C’est simplement une approximation commode pour faciliter la réflexion sur les données
    Presque toutes les avancées utiles du deep learning ont été obtenues sans rapport avec la topology. Le deep learning est un domaine empirique qui a progressé rapidement par l’expérimentation, les essais-erreurs, et seulement une petite dose d’intuition mathématique — qui, en plus, n’était pas de la topology

    • Je suis totalement en désaccord avec cette affirmation. Il y a certes beaucoup d’essais-erreurs, mais aussi un effet combiné de nombreuses théories mathématiques : topology, geometry, game theory, calcul, statistiques, etc. Rien que la backpropagation, c’est la chain rule
      Le domaine s’est démocratisé et est devenu rentable au point que beaucoup de praticiens peuvent l’utiliser facilement sans connaître ses racines théoriques
      Au final, on invente des théories et des techniques, tout en réutilisant souvent, parfois sans même s’en rendre compte, des idées déjà présentes dans d’autres disciplines sous forme de « redécouverte »

    • Quant à l’idée que « ce genre d’intuition n’a jamais été de la topology à l’origine », je pense que ce type d’« intuition mathématique » est le plus souvent appliqué a posteriori. Après qu’une percée a eu lieu en deep learning, des chercheurs en physique ou en mathématiques reconnaissent ensuite des similarités avec les méthodes de leur propre domaine
      Il existe par exemple un texte expliquant que GPT est presque identique à l’algorithme que j’utilisais autrefois pour résoudre des problèmes de physique
      https://ondrejcertik.com/blog/2023/…

    • Je travaille dans le deep learning depuis plus de dix ans, et l’affirmation selon laquelle « les données ne vivent pas sur des variétés » est fausse. Si l’on appelle l’espace d’embedding un « espace », ce n’est pas pour rien. Les GAN, les VAE, les contrastive loss, etc. construisent réellement une structure de variété vectorielle dans laquelle on peut se déplacer ou intervenir

    • Si l’on adopte une définition qui tolère l’erreur d’approximation, alors on peut dire que les données réelles se trouvent sur une variété. Voir par exemple : Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning(https://aclanthology.org/2021.acl-long.568.pdf)

    • À ce stade, j’ai l’impression que le deep learning ressemble un peu à l’alchimie
      Comme l’alchimie avant l’apparition de la chimie, qui lui a fourni son fondement théorique. Je me dis qu’un jour, l’humanité future ne gardera peut-être plus que l’expression « deep learning » comme une simple trace linguistique du passé

  • La phrase « à ce stade, on a atteint l’AGI » m’a fait perdre beaucoup de confiance dans le texte
    Dans l’ensemble, les idées de l’article étaient intéressantes, mais j’ai trouvé dommage le côté un peu fluffy, notamment dans le lien fait avec le reasoning et dans l’absence de discussion technique approfondie. Il existe déjà des travaux bien plus précis sur le sujet (p. ex. https://arxiv.org/abs/1402.1869)

  • Un autre type de topology souvent discuté dans les DNN est la topology du réseau. Autrement dit, la structure de connexion entre les nœuds et la manière dont les données circulent
    Les autoencoders, les CNN, les GAN, etc. sont tous inspirés de la biologie
    Nous avons encore beaucoup à apprendre de la topology du cerveau et de sa connectivité fonctionnelle
    Il est très probable que de toutes nouvelles architectures émergent à l’avenir, soit à l’intérieur même des couches/nœuds individuels, soit au niveau des structures de connexion et d’interaction entre réseaux spécialisés
    Le cerveau humain lui-même n’est pas un réseau unique, mais un ensemble de plusieurs réseaux — comme le « Big 7 » — qui fonctionnent en parallèle et de manière interdépendante. On y trouve le DMN (Default Mode Network), le CEN (Central Executive Network), le Limbic Network, entre autres, et il est fréquent qu’un même neurone appartienne simultanément à plusieurs réseaux
    Comme l’intelligence artificielle ne reproduit pas encore pleinement cette complexité, les network topologies restent une source d’inspiration immense
    Je suis d’accord avec l’idée que « Topology is all you need »

  • La topologie mathématique traite des objets géométriques et des transformations, mais en informatique, la notion de « topologie » servant à définir les relations entre objets abstraits est également importante
    Par exemple, dans une structure de données de type graphe, on stocke un ensemble d’objets (sommets) et un ensemble de relations entre eux (arêtes), ce qui fait du graphe lui-même une structure topologique discrète
    Une structure de données réseau est semblable, sauf que chaque arête peut en plus porter une valeur. Autrement dit, on a un ensemble de sommets (objets), un ensemble de relations entre eux (arêtes), et éventuellement une valeur (poids) associée à chaque arête. En ce sens, on peut aussi comprendre les réseaux de neurones artificiels de cette manière, comme des structures construites sur une topologie discrète

  • Dans le diagramme de l’auteur, le fait que l’AGI/ASI soit représentée comme un point sur la même variété que la prédiction du token suivant, le chat ou les modèles CoT me perturbe. On peut clairement considérer que ces trois derniers appartiennent à une même famille connectée, mais je ne vois pas sur quelle base solide on y inclurait aussi l’AGI/ASI
    Je me demande ce qu’il adviendrait si, même avec autant de manipulations topologiques qu’on veut, les modèles fondés sur le CoT ne pouvaient structurellement jamais atteindre le type d’« intelligence » propre à l’AGI
    Par exemple, si l’intelligence humaine exige essentiellement des capacités sensorielles avancées, des boucles de feedback internes et un traitement continu, alors les modèles autoregressifs de type GPT sont, eux, fondamentalement discrets
    En tant que non-spécialiste, j’ai l’intuition que les LLM sont peut-être d’une nature totalement différente des systèmes susceptibles de produire de « l’intelligence » ou de la « conscience »

    • C’est possible. La définition même de l’AGI/ASI reste incertaine
      En réalité, je pense que nous avons déjà atteint l’AGI, mais beaucoup de gens ne sont pas d’accord
      Tu évoquais l’idée que l’essence de l’intelligence humaine résiderait dans des boucles sensorielles/feedback avancées ou dans un traitement continu ; d’après mon expérience assez importante en connectomics, les similarités entre systèmes biologiques et réseaux neuronaux ne peuvent pas non plus être ignorées
      Par exemple, dans le système olfactif de la souris, lorsqu’un certain ensemble de neurones s’active, une odeur particulière (« chocolat », « citron », etc.) est détectée. Cela ressemble beaucoup à un feature vector
      Les représentations neuronales dans le cerveau ont elles aussi des points communs avec les représentations d’embedding. C’est comme si l’espace d’embedding se construisait selon quels neurones s’allument.
      Ce qui se passe au-dessus des embeddings n’est pas « quelque chose de plus » : c’est simplement du traitement supplémentaire