Le deep learning est de la topologie appliquée

(theahura.substack.com)

7 points par GN⁺ 2025-05-21 | 1 commentaires | Partager sur WhatsApp

Le deep learning peut être vu comme un processus qui place les données sur un manifold dans un espace de grande dimension, puis cherche une structure séparable en courbant ou en étirant cette surface au moyen des transformations des couches d’un réseau de neurones
Une couche comme tanh(Wx+b) est une transformation continue qui enchaîne transformation matricielle, translation vectorielle et fonction non linéaire ; en empilant plusieurs couches, même des jeux de données complexes peuvent prendre une autre forme
Des données circulaires impossibles à séparer par une seule ligne en basse dimension peuvent devenir séparables lorsqu’on les projette dans une dimension plus élevée, et un réseau de neurones peut apprendre ce type d’espace de représentation
Les vecteurs d’embedding représentent textes, images et concepts comme des points dans un espace numérique ; sur une surface bien formée, des opérations conceptuelles comme king - man + woman = queen deviennent possibles
L’apprentissage actuel des modèles de raisonnement peut s’interpréter comme un déplacement sur le manifold du raisonnement, via la sélection de bons reasoning traces ; l’apprentissage par renforcement à la DeepSeek R1 est présenté comme une façon de réduire le coût de la sélection manuelle

Voir les réseaux de neurones par la topologie

La topologie est une branche des mathématiques qui étudie les propriétés conservées malgré des déformations comme courber, tordre ou étirer une surface, tant qu’on ne la déchire pas et qu’on n’y perce pas de trous
Un cercle dessiné sur une surface d’argile ne devient pas soudainement une ligne, deux cercles ou une courbe qui se croise elle-même simplement parce qu’on le fait pivoter ou qu’on le courbe
Les problèmes de classification de données peuvent être vus de façon similaire
- Même si des données sur un plan 2D ne se séparent pas proprement avec une seule ligne, une structure séparable peut apparaître si l’on déforme correctement la surface
- L’idée est que cette manipulation de l’espace se trouve au cœur du deep learning

Les couches de réseaux de neurones sont des transformations continues qui déforment les surfaces

Décrire un réseau de neurones comme une pile d’algèbre linéaire est globalement juste, et une matrice peut s’interpréter comme une opération qui transforme une surface géométrique
L’article de Chris Olah de 2014 aborde lui aussi les manifolds du deep learning sous cet angle
Une couche tanh(Wx+b) se compose de trois étapes
- une transformation linéaire par W
- une translation par le vecteur b
- une distorsion non linéaire produite par l’application point par point de tanh
En empilant plusieurs transformations de ce type, même des jeux de données complexes peuvent être transformés en formes séparables
Il existe toutefois des cas difficiles à séparer topologiquement avec une seule ligne, comme des points à l’intérieur d’un cercle et des points qui l’entourent à l’extérieur
- Dans ce cas, passer de deux à trois dimensions peut permettre de séparer les données proprement
- Une séparation impossible en basse dimension peut devenir facile en dimension plus élevée

Embeddings et manifolds sémantiques

Un grand réseau de neurones peut être vu comme un générateur de topologie (topology generator)
- Il prend des données en entrée et cherche une surface satisfaisant les propriétés exigées par la fonction de perte
- Dans une tâche de classification, il apprend à placer les chiens et les chats dans des régions différentes de l’espace
- Dans une tâche de traduction, il apprend à placer à proximité des éléments comme bread et pan, ou une photo de chat et cat
- Dans la prédiction du prochain token, il apprend une surface où les tokens sont regroupés selon leur mode d’utilisation
Les données se trouvent sur des manifolds de grande dimension et sémantiquement liés ; construire un manifold revient à représenter sémantiquement un jeu de données
L’exemple des couleurs montre qu’une telle structure peut être inhérente aux données elles-mêmes
- [128, 0, 0] représente le rouge, [0, 0, 128] représente le bleu
- Additionner les deux vecteurs permet de créer du violet
- La dimensionnalité des couleurs, les similarités entre couleurs et la façon de les mélanger peuvent être vues comme des structures inhérentes aux données
Les images peuvent elles aussi être traitées comme des points sur un manifold
- Une image est représentée par des valeurs de pixels RGB de taille Height x Width x 3
- En l’aplatissant en un seul vecteur, toutes les images d’une taille donnée peuvent être vues comme des points dans un espace de grande dimension
- La région des images où Brad Pitt mange un sandwich et l’image de la Mona Lisa peuvent être des points différents dans le même espace d’images
La majeure partie de l’espace des images est du bruit, et regrouper les images uniquement par similarité de pixels n’est pas utile
- Un modèle de deep learning peut courber et étirer la surface des images afin de rapprocher les images pertinentes et d’éloigner le bruit
À l’intérieur du modèle, les informations comme le texte et les images sont représentées sous forme de listes de nombres appelées vecteurs d’embedding
- Chaque embedding est à la fois relié à un concept et correspond à un point dans l’espace
- Sur une surface bien formée, des opérations mathématiques sur les concepts, comme king - man + woman = queen, deviennent possibles

Voir l’apprentissage du raisonnement comme un déplacement sur un manifold

Si l’on adopte l’idée que tout se situe sur un manifold, le raisonnement peut lui aussi être considéré comme un manifold
- On peut imaginer que les bons raisonnements se regroupent d’un côté de l’espace, et les mauvais raisonnements d’un autre
- Même sans définir bon et mauvais comme des termes mathématiques rigoureux, il est possible d’entraîner un réseau de neurones si l’on sait les distinguer
Les grandes entreprises d’IA comme Google, Anthropic, OAI et DeepSeek peuvent aussi être interprétées comme allant dans cette direction
L’industrie de l’IA semble considérer qu’on a globalement extrait tout ce qu’il était possible d’obtenir des seules statistiques du langage
- La plupart des LLM sont entraînés sur des milliers de milliards de tokens
- Même en passant à des milliers de billions de tokens, les gains supplémentaires pourraient rester limités
- La prédiction du prochain token ressemble au raisonnement, mais elle apprend surtout à bien prédire le prochain token plutôt qu’à atteindre le raisonnement en tant que tel
L’instruction tuning et le RLHF peuvent être interprétés comme des façons de se déplacer de la zone de prédiction du prochain token vers celle du raisonnement en questions-réponses
La Chain of Thought est une façon de se déplacer plus explicitement vers la zone de raisonnement du manifold du raisonnement
- Dans des modèles comme o3 ou Gemini 2.5, le processus de pensée affiché sous la forme Thinking… est appelé reasoning trace
- En exécutant de nombreuses requêtes, on peut distinguer les bons reasoning traces des mauvais
- Par exemple, si l’on obtient 10 000 très bons traces à partir d’un million de requêtes, on peut les utiliser pour entraîner un nouveau modèle qui ne génère que de meilleurs traces
En répétant ce processus, on peut bootstrapper le modèle suivant à partir du modèle précédent
- Si l’on dispose d’un moyen de juger lequel de deux reasoning traces est le meilleur, on peut continuer à se déplacer sur le manifold du raisonnement
- On peut aussi voir cela comme une forme de distill-training du modèle actuel, en traitant les 10 000 bons échantillons comme s’ils provenaient d’un modèle hypothétique plus avancé
Il est dit que cette approche a suffi à atteindre l’AGI, mais une note précise que l’affirmation selon laquelle l’AGI existerait déjà est controversée
Elle n’est toutefois pas considérée comme suffisante pour l’ASI
- La capacité à sélectionner le meilleur raisonnement devient une limite
- Réunir de bons reasoning traces coûte cher et prend beaucoup de temps
- Même si beaucoup de personnes intelligentes en sélectionnaient toute la journée, les résultats pourraient rester subjectifs et bruités

DeepSeek R1, apprentissage par renforcement et modèles qui génèrent des modèles

DeepSeek R1 et d’autres méthodes d’apprentissage par renforcement sont apparus comme une façon d’éviter que des humains sélectionnent directement les bons raisonnements
L’approche de DeepSeek se concentre sur la création d’heuristiques quantitatives pour les bons raisonnements
- On peut créer des tests unitaires ou des problèmes mathématiques qu’une IA doit réussir
- Si le code passe les tests ou si le problème mathématique est résolu correctement, le reasoning trace qui a produit cette sortie peut être considéré comme meilleur qu’un trace ayant produit une mauvaise sortie
- Il n’est pas nécessaire de mener une analyse subjective du reasoning trace lui-même
Il semble que le RL seul ait permis d’entraîner un modèle assez performant sur un ensemble de reasoning tasks
Mais l’approche RL seule ne permet pas d’atteindre l’ASI
- Le modèle RL finit lui aussi par rencontrer une limite asymptotique
- Ensuite, les reasoning traces générés par le modèle RL sont curés pour fine-tuner un second modèle entièrement différent
- Au final, DeepSeek est moins le RL lui-même qu’une méthode pour générer beaucoup de reasoning traces de haute qualité à un coût inférieur à une production humaine directe
L’idée est qu’il est plus facile de construire un système qui distingue un mauvais raisonnement d’un bon que de construire d’emblée un système qui raisonne bien
Un réseau de neurones lui-même peut aussi être représenté comme un manifold
- Un réseau de neurones est une liste de poids numériques arrangés d’une certaine manière
- En aplatissant tous les paramètres pour en faire un vecteur, on peut le mapper à un point sur une surface
- Certaines régions peuvent correspondre à la semantic segmentation, d’autres à la text translation, d’autres encore à l’autoencoding
- Les poids de sortie finaux se représentant facilement sous forme de tenseurs, on peut appliquer directement la backprop à la sortie
Il est suggéré que la méthode de diffusion utilisée pour la génération d’images peut aussi s’appliquer à la génération de modèles
- La diffusion ajoute progressivement du bruit à une image, puis entraîne un modèle à inverser ce processus d’ajout de bruit
- On peut ajouter du bruit à plusieurs checkpoints de couches de transformers pretrained de Hugging Face pour constituer un jeu d’entraînement de diffusion
- En fournissant comme condition textuelle la description d’un modèle pretrained, on peut imaginer un modèle qui génère par diffusion d’autres modèles pretrained à partir de descriptions textuelles
- Avec un prompt comme "Spanish to English", il pourrait produire un modèle entièrement entraîné sans entraînement séparé
La plupart des modèles actuels commencent par une initialisation aléatoire, mais un modèle de diffusion qui génère d’autres modèles pourrait être meilleur qu’une initialisation aléatoire et réduire fortement le temps d’entraînement
Le deep learning reste un domaine informel, faute d’une bonne théorie opérationnelle expliquant ce que font les modèles et pourquoi ils fonctionnent ; comprendre topologiquement les espaces d’embedding relie plusieurs concepts entre eux

1 commentaires

GN⁺ 2025-05-21

Avis sur Hacker News

Comme cet article est basé sur mon billet de blog de 2014 (https://colah.github.io/posts/2014-03-NN-Manifolds-Topology/), je me permets de laisser un mot
J’ai vraiment essayé d’utiliser à fond la topologie comme façon de comprendre les réseaux de neurones, et j’ai aussi écrit des billets de suivi : https://colah.github.io/posts/2014-10-Visualizing-MNIST/, https://colah.github.io/posts/2015-01-Visualizing-Representa...
Il y a eu des endroits où le point de vue topologique s’est révélé utile, mais après plus de dix ans à essayer de comprendre ce qui se passe à l’intérieur des réseaux de neurones, je n’en ai pas vraiment tiré de grands résultats
Ce qui a été beaucoup plus fructueux, c’est l’hypothèse des représentations linéaires, selon laquelle « les concepts/caractéristiques correspondent à des directions dans un réseau de neurones », ainsi que la notion de circuits, c’est-à-dire des réseaux de ces concepts connectés
Parmi les articles liés, on peut citer https://distill.pub/2020/circuits/zoom-in/, https://transformer-circuits.pub/2022/mech-interp-essay/inde..., https://transformer-circuits.pub/2025/attribution-graphs/bio...
- Il existe un malentendu fréquent sur la manière de comprendre les réseaux de neurones : l’idée que les LLM ne seraient au fond que des modèles n-grammes un peu améliorés, et qu’ils devraient être stupides parce qu’ils ne font que prédire le token suivant
  Je me demande si la réaction célèbre[1] à l’article de Karpathy sur les RNN[2] n’est pas en partie responsable de l’assimilation des réseaux de neurones de langage aux modèles n-grammes
  L’article Stochastic Parrots[3] assimile lui aussi, dans une certaine mesure, les LLM aux modèles n-grammes, en disant en substance qu’il « pensait surtout aux modèles n-grammes, mais que ses conclusions restent pertinentes et applicables »
  Il me semble qu’avant que les réseaux de neurones ne deviennent vraiment bons, il y a eu une période où les deux se ressemblaient davantage
  [1] https://nbviewer.org/gist/yoavg/d76121dfde2618422139
  [2] https://karpathy.github.io/2015/05/21/rnn-effectiveness/
  [3] https://dl.acm.org/doi/pdf/10.1145/3442188.3445922
- Je suis le courant des circuits depuis plusieurs années, et l’hypothèse des représentations linéaires me paraît très convaincante
  J’ai aussi gardé dans mes notes un brouillon de critique de Toy Models of Superposition
  Cela dit, les circuits me semblent moins convaincants, car leur analyse paraît particulièrement trop liée à l’architecture Transformer
  J’ai l’impression que l’hypothèse des représentations linéaires peut dépendre de l’architecture. Les GAN, VAE, CLIP, etc. semblent modéliser explicitement des variétés
  Même un modèle simple, sous l’effet de la pression d’optimisation, repliera probablement des caractéristiques suffisamment similaires dans la même direction linéaire
  Il est certes difficile de concilier les preuves empiriques selon lesquelles les modèles simples placent des caractéristiques similaires dans des directions orthogonales avec l’hypothèse des variétés, mais cela semble finalement davantage lié à la fonction de perte optimisée
  Dans Toy Models of Superposition, on utilise la MSE, ce qui amène le modèle à apprendre en pratique une tâche de régression/compression de type autoencodeur ; il est donc naturel que les motifs d’interférence entre caractéristiques apparaissant ensemble deviennent importants
  À l’inverse, avec d’autres objectifs comme une perte contrastive, je ne pense pas que le même comportement de minimisation de l’interférence apparaisse
- Après avoir étudié la topologie pour la première fois en 2011, j’ai essayé à plusieurs reprises d’« appliquer » la topologie à des problèmes réels, et mon expérience a été similaire
  Désormais, j’hésite même face à la formule courante selon laquelle « les données réelles sont proches de variétés lisses de faible dimension »
  J’aimerais vraiment étudier dans quelle mesure cette proposition s’applique aux données réelles, et dans quelle mesure elle est déformée par les méthodes de réduction de dimension que l’on utilise pour traiter efficacement les jeux de données naturels, mais je manque de temps
- En physique, il est intéressant de noter que des symétries globales ou des variétés topologiques différentes peuvent satisfaire la même structure métrique, c’est-à-dire la même géométrie locale
  Par exemple, une même solution de tenseur métrique des équations de champ d’Einstein peut exister sur des variétés topologiquement différentes
  À l’inverse, si l’on regarde les solutions du modèle d’Ising, une même topologie de réseau peut avoir plusieurs solutions différentes, et lorsque le système est proche du point critique, la topologie du réseau elle-même peut ne plus être importante
  Ce n’est qu’une analogie, mais cela suggère que les détails intéressants de la dynamique ne sont pas inscrits dans la topologie du système. Le problème est plus complexe
- Il y a eu quelques petites discussions HN sur l’ancien article
  Neural Networks, Manifolds, and Topology (2014) - https://news.ycombinator.com/item?id=19132702 - février 2019, 25 commentaires
  Neural Networks, Manifolds, and Topology (2014) - https://news.ycombinator.com/item?id=9814114 - juillet 2015, 7 commentaires
  Neural Networks, Manifolds, and Topology - https://news.ycombinator.com/item?id=7557964 - avril 2014, 29 commentaires
Si c’était vraiment de la topologie, il ne serait pas nécessaire de courber une variété pour faire de la recherche de similarité. On est plus proche d’une géométrie avec une métrique.
Comme dans le monde réel, il faut pouvoir comparer les objets.
Comme des transformations topologiques de la variété se produisent aussi pendant l’apprentissage, je me demande comment la topologie évolue au cours de celui-ci.
J’imagine qu’elle change violemment au début, puis se stabilise, avant de laisser place à un ajustement fin géométrique.
Parmi les articles liés, on trouve Topology and geometry of data manifold in deep learning(https://arxiv.org/abs/2204.08624), Topology of Deep Neural Networks(https://jmlr.org/papers/v21/20-345.html), Persistent Topological Features in Large Language Models(https://arxiv.org/abs/2410.11042) et Deep learning as Ricci flow(https://www.nature.com/articles/s41598-024-74045-9).
- Si vous avez déjà bricolé avec des GAN ou des VAE, vous pouvez en fait répondre à cette question. La réponse est globalement plutôt « oui ».
  On peut observer des GAN à différents checkpoints pendant l’apprentissage et utiliser des outils comme UMAP ou t-SNE pour voir comment différents points d’un espace de grande dimension se déplacent.
  Il est aussi juste de dire qu’après de forts changements initiaux, il y a stabilisation puis ajustement fin géométrique, mais ces changements initiaux sont également influencés par le taux d’apprentissage et le choix de l’optimiseur.
- À la rigueur, je dirais que c’est plutôt de l’algèbre linéaire appliquée. C’est juste que dit comme ça, ça sonne moins exotique.
L’article lui-même était bon, mais je ne vois pas pourquoi l’idée de trouver une surface de séparation entre deux ensembles de points serait appelée « topologie ».
On y lit des phrases du type : « si l’on apprend la traduction anglais-espagnol ou la transformation image-texte, on apprend une topologie où bread est proche de pan et où une photo de chat est proche du mot cat », mais c’est plutôt quelque chose dont la topologie ne traite pas.
Les notions selon lesquelles des points sont « proches » ou « éloignés » relèvent de la métrique, pas de la topologie.
Si deux points sont proches dans un espace topologique, on peut étirer l’espace de façon à conserver le même espace topologique tout en rendant ces deux points éloignés.
C’est précisément le cœur de la blague selon laquelle une tasse à café et un beignet sont identiques.
Dans l’ensemble, cela ressemble davantage à une application concrète de la géométrie algébrique, où l’on cherche quelque chose comme une variété algébrique sur laquelle les points sont proches les uns des autres. Au final, cela semble être une question de géométrie et de distance entre points.
- Dire que « ce n’est pas ce dont traite la topologie » est juste à 100 %.
  Mais comme l’article traite à la fois de topologie et de deep learning, j’espère seulement que la confusion évidente se limite à l’un des deux, à savoir la topologie.
- Dans cette phrase, « topology » était employé dans un sens plus familier. Il aurait fallu dire « surface ».
- Avec une définition souple, on peut effectivement voir la topologie comme l’étude d’espaces dotés d’une certaine notion de proximité et d’éloignement. C’est vrai même sans métrique.
  Le concept central de voisinage en topologie générale capture l’idée d’être près d’un point, et permet de définir des notions qui nécessitent une idée de proximité, comme la continuité ou la convergence de suites.
  Wikipedia [0] explique aussi qu’à travers le concept d’ensemble ouvert, on peut formaliser les notions de « près de », « arbitrairement petit » et « éloigné ».
  Si l’on change la définition des ensembles ouverts, les fonctions continues, les ensembles compacts et les ensembles connexes changent aussi, et chaque choix de définition des ensembles ouverts s’appelle une topologie.
  Les espaces métriques constituent une classe importante d’espaces topologiques dans lesquels on peut définir une distance réelle non négative entre paires de points, c’est-à-dire une métrique.
  Cela ne veut pas dire que la topologie est le meilleur prisme pour comprendre les réseaux de neurones, et l’auteur a d’ailleurs dit en commentaire avoir changé d’avis. Je voulais seulement corriger ce malentendu ici.
  [0] https://en.wikipedia.org/wiki/General_topology
Le titre, tel qu’il est, est banal et faux, mais l’article lui-même était agréable à lire.
La topologie est la minuscule structure qui reste quand on retire de la géométrie les distances, les angles, les directions et toutes les formes d’étirement qui ne déchirent pas.
C’est le minimum qui reste valable même après des déformations aussi radicales.
Il est vrai que les notions topologiques sont utiles en machine learning, mais l’échelle, les distances et les angles fournissent généralement beaucoup d’informations essentielles sur les données.
Si l’on veut distinguer un chat tigré d’un tigre tout en ignorant la taille, ce serait idiot.
La topologie est particulièrement utile quand on ne peut pas se fier aux longueurs, aux distances, aux angles ou aux déformations arbitraires.
Cela arrive, mais affirmer que le deep learning est de la topologie appliquée est absurde, presque stupide.
- Les données d’entrée se trouvent sur une variété peu fiable. Le fait qu’une image de canette Coca-Cola et une image de panneau stop soient proches dans l’espace des pixels n’a a priori aucun sens.
  Les réseaux de neurones appliquent précisément toutes ces transformations radicales.
- Quand on entre dans les détails, beaucoup de choses qui n’auraient pas compté en topologie pure deviennent importantes. Cela va du nombre de couches jusqu’à la quantification/résolution fp.
- Le mot « topology » a aussi une définition tout à fait légitime dans le dictionnaire qui n’impose aucune des conditions que vous exigez ici. Il me semble que vous avez manqué le fait qu’il y a deux définitions.
Merci pour le partage ; moi aussi, j’ai tendance à voir l’apprentissage sous l’angle des variétés. C’est un mode de représentation puissant.
J’ai pas mal écrit dans mon journal à propos du passage disant que « dans un espace de dimension suffisamment élevée, cela devient indiscernable de l’inférence », et j’ai aussi écrit sur HN à ce sujet sous le nom de « variété d’inférence probabiliste ».
Cette variété est construite en apprenant, à partir d’un ensemble d’entrées donné, un espace de motifs décontextualisés.
En raison de la nature intrinsèquement probabiliste de l’échantillonnage, la véritable inférence s’exprime non pas par des axiomes, mais par des probabilités.
On peut découvrir des axiomes en trouvant des points fixes ou des attracteurs sur la variété, mais au bout du compte, ce que l’on observe est une variété probabiliste construite à partir de l’ensemble d’entrées.
Cela dit, je ne pense pas que cette « inférence » puisse être séparée des données d’entrée.
Une variété d’inférence suffisamment avancée pourrait certes contenir des structures de type « méta-inférence » présentes partout, mais ces structures très fortement décontextualisées peuvent être totalement inutiles si elles ne sont pas correctement recontextualisées.
Au final, pour qu’une variété soit utile au traitement d’un certain type d’entrées, les motifs de ces entrées doivent suivre une règle sous-jacente apprenable.

Si la décontextualisation est l’apprentissage, c’est-à-dire la décomposition des aspects de l’entrée en relations indépendantes du contexte, alors la recontextualisation en est l’autre moitié : la capacité à transformer des relations indépendantes du contexte, très abstraites et parfois impossibles à exprimer, en analyses utiles dans un nouveau domaine.
Commentaire complet : https://news.ycombinator.com/item?id=42871894

Je me demande s’il parle du raisonnement en général, c’est-à-dire du raisonnement comme processus mental opérant sur des représentations de propositions.
Si c’est le cas, j’ai du mal à comprendre l’affirmation selon laquelle « le vrai raisonnement s’exprime en probabilités, pas en axiomes ».
L’une des caractéristiques du raisonnement est justement qu’il ne fonctionne pas de cette façon.
Il est très improbable que les animaux n’aient absolument aucune capacité à opérer de manière non probabiliste sur des propositions qu’ils se représentent. C’est indispensable au raisonnement correct, et c’est aussi une capacité relativement triviale à fournir.
Par exemple : « si l’araignée est dans boxA, alors elle n’est nulle part ailleurs ».
Les données ne se trouvent pas réellement sur une variété. Ce n’est qu’une approximation pour penser les données.
Presque tout ce qui a été utile en deep learning, peut-être même 100 %, est apparu sans aucune réflexion sur la topologie.
Le deep learning est moins une application de quelque chose qu’un domaine empirique, qui s’est développé surtout par essais, erreurs et expérimentation.
Il y a bien eu un peu d’intuition venue de la théorie, mais cette théorie n’était pas la topologie.
- Je ne suis pas du tout d’accord. Il y a certes beaucoup d’essais et d’erreurs, mais le deep learning ressemble plutôt à un mélange de théories issues de nombreux domaines des mathématiques, dont la topologie, la géométrie, la théorie des jeux, le calcul différentiel et intégral, les statistiques, etc.
  Même le fondamental backpropagation n’est rien d’autre que l’application de la règle de dérivation en chaîne aux poids.
  La différence, c’est que le deep learning est devenu un domaine tellement accessible — et, plus précisément, rentable — que beaucoup de praticiens peuvent l’apprendre sans apprendre les origines du formalisme.
  Au final, ils utilisent ou « réinventent » des théories et des techniques présentes depuis longtemps dans d’autres domaines, sans en connaître l’origine.
- Les « intuitions » venues de la théorie me semblent rétrospectives. Ce n’est qu’après que le deep learning a produit une méthode que des chercheurs d’autres disciplines scientifiques remarquent les similitudes entre l’approche du deep learning et leurs anciennes méthodes.
  Par exemple, il y a cet article où l’auteur découvre que GPT correspond en fait à un problème de calcul qu’il avait déjà résolu en physique : https://ondrejcertik.com/blog/2023/03/fastgpt-faster-than-py...
- Pour quelqu’un qui fait du deep learning depuis plus de dix ans, cette affirmation est assez fausse. Le fait que les données vivent sur une variété est évident, et cela vaut aussi pour les applications du deep learning.
  Par exemple, il y a le billet de blog de Chris Olah de 2014 lié dans mon article : https://colah.github.io/posts/2014-03-NN-Manifolds-Topology/
  Ce n’est pas pour rien qu’on appelle l’espace des embeddings un « espace ».
  Les GAN, les VAE et les pertes contrastives consistent tous à construire des variétés vectorielles dans lesquelles on peut se déplacer pour produire différents types de données.
- C’est de l’alchimie.
  Le deep learning dans sa forme actuelle entretient avec une théorie sous-jacente hypothétique à peu près le même rapport que l’alchimie entretenait avec la chimie.
  Dans quelques centaines d’années, les lycéens inuitophones d’une civilisation postérieure à la nôtre apprendront que l’étrange expression « deep learning » était un vestige de l’ancienne lingua franca.
- Si l’on assouplit la définition pour autoriser une erreur d’approximation, on peut considérer que les données se trouvent sur une variété. Voir par exemple Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning (https://aclanthology.org/2021.acl-long.568.pdf).
Dès que j’ai lu la phrase « cela suffisait pour aller jusqu’à l’AGI », ma confiance a chuté.
Dans l’ensemble, les idées sont correctes, mais le texte est assez vague, surtout dans la partie qui le relie au raisonnement.
Il existe dans ce domaine des travaux techniques sérieux, comme https://arxiv.org/abs/1402.1869, qui étendent cette idée et la rendent plus concrète.
Une autre topologie que l’on rencontre dans les réseaux de neurones profonds est la topologie du réseau. Elle désigne la structure du réseau : la façon dont les nœuds sont connectés et dont les données circulent.
Il existe déjà des exemples bien connus, inspirés de la biologie, comme les autoencodeurs, les réseaux de neurones convolutifs (CNN) et les réseaux antagonistes génératifs (GAN).
Mais il nous reste encore beaucoup à apprendre sur la topologie du cerveau et sa connectivité fonctionnelle.
À l’avenir, il est très probable que l’on découvre de nouvelles structures, aussi bien dans l’organisation interne des couches/nœuds individuels que dans la manière dont des réseaux spécialisés se connectent et interagissent entre eux.
Le cerveau ne s’appuie pas sur un seul réseau : il fait fonctionner en parallèle plusieurs réseaux, souvent appelés « Big 7 », qui sont profondément interconnectés.
Le Default Mode Network (DMN), le Central Executive Network (CEN), le Limbic Network, entre autres, en font partie.
En réalité, un seul neurone peut appartenir à plusieurs réseaux et remplir des fonctions différentes.
Les systèmes artificiels n’ont pas encore suffisamment reproduit cette complexité, et il reste beaucoup à apprendre et à puiser comme inspiration dans cette « topologie de réseau ».
Donc « Topology is all you need » :-)
Le problème, c’est le postulat selon lequel « tant que l’on peut distinguer le bon du mauvais, on peut entraîner un réseau de neurones à organiser lui-même sa topologie ».
Il y a environ dix ans, j’ai vu un projet qui entraînait un réseau à deviner le sexe biologique à partir de photos de visages.
Pour réduire les biais, ils avaient soigneusement retiré le maquillage, les moustaches, les cheveux, etc., mais la précision n’était que d’environ 70 à 80 %.
À l’époque, cela semblait être un excellent résultat, et ils visaient 99 %.
La première chose que j’ai faite après avoir lu l’article a été de chercher des articles sur la capacité des humains à déterminer le sexe biologique à partir de photos similaires.
Les humains ne faisaient pas beaucoup mieux, et l’écart entre humains et machines était de l’ordre de 1 à 2 %.
J’ai demandé aux responsables du projet comment ils avaient démontré qu’une telle distinction était possible à partir de la seule photo, mais ils n’ont même pas compris la question et supposaient simplement que c’était possible.
Au final, ils n’ont pas réussi à améliorer les résultats. Peut-être qu’ils avaient mal entraîné le réseau de neurones, mais il se peut aussi que, si l’on retire les marqueurs de sexe, beaucoup de visages soient tout simplement androgynes.
Si je raconte cette anecdote, c’est parce que leur hypothèse me paraissait assez raisonnable.

Dans la plupart des situations, en regardant un visage, on peut deviner ce que quelqu’un a dans son pantalon ; on en déduit donc que cette information se trouve dans le visage.
Mais alors que l’on réécrit les manuels chaque année, que l’on tente de calculer la « demi-vie du savoir », que la philosophie en tant que discipline n’est pas close, et que des débats politiques et idéologiques ont lieu chaque jour sur ce qui est le mieux, l’hypothèse selon laquelle nous pourrions, d’une manière ou d’une autre, séparer le bien et le mal est très, très irrationnelle.

Au bout du compte, supposer qu’une telle distinction existe entre le « bien » et le « mal » n’est pas rationnel non plus.
Le schéma qui affirme que l’AGI/ASI est un point sur une variété, au même titre que la prédiction du token suivant, les modèles de chat et les modèles CoT, prête à confusion.
On pourrait peut-être démontrer que les trois derniers font partie de la même variété, mais je ne vois pas sur quelle base on y placerait aussi l’AGI/ASI.
Même avec toutes les manipulations topologiques possibles, les modèles capables de CoT pourraient très bien ne jamais atteindre un processus que l’on puisse considérer comme une AGI.
Par exemple, l’intelligence humaine, ce qui se rapproche le plus de l’AGI à notre connaissance, nécessite des boucles de rétroaction sensorielles et internes extrêmement complexes ainsi qu’un traitement continu, contrairement au traitement discret des modèles autorégressifs.
Avec mon intuition de profane, les LLM ne semblent pas du tout appartenir à la même famille que les systèmes capables de générer de l’intelligence ou de la conscience.
- C’est possible. L’AGI/ASI est mal définie. Personnellement, j’ai plutôt tendance à penser que nous avons déjà atteint l’AGI, même si, bien sûr, beaucoup de gens ne sont pas d’accord.
  Dire que l’intelligence humaine nécessite des boucles de rétroaction sensorielles et internes complexes ainsi qu’un traitement continu masque, à mon avis, les façons dont les réseaux de neurones et les réseaux biologiques sont en réalité assez similaires.
  J’ai pas mal travaillé sur la connectomique, et par exemple, dans le système olfactif de la souris, une sorte de vecteur de caractéristiques apparaît selon les neurones qui s’activent.
  Quand un certain ensemble de neurones s’active, cela correspond à un sens comme « chocolat » ou « citron ».
  Plus généralement, les représentations neuronales semblent assez proches des représentations par embeddings, et on peut imaginer construire un espace d’embedding à partir de l’endroit et des neurones qui s’activent.
  Tout ce qui se trouve au-dessus des embeddings n’est « que » du traitement.