Les réseaux Kolmogorov-Arnold pourraient améliorer la compréhension des réseaux neuronaux

(quantamagazine.org)

1 points par GN⁺ 2024-09-14 | 1 commentaires | Partager sur WhatsApp

Le Kolmogorov-Arnold network (KAN), publié en avril 2024, a été proposé comme une alternative plus lisible dans son fonctionnement interne que les réseaux neuronaux classiques basés sur des MLP, et peut accomplir presque tout ce que font les réseaux neuronaux ordinaires sur certaines catégories de problèmes
Le KAN ajuste sa sortie en plaçant sur les arêtes non pas des poids numériques, mais des fonctions non linéaires apprenables, une structure ancrée dans le théorème de Kolmogorov-Arnold de 1957
Après avoir buté sur les limites d’un KAN à 2 couches, l’équipe de recherche du MIT dirigée par Ziming Liu et Max Tegmark a tenté des structures à 3 couches ou plus, montrant qu’un KAN à 3 couches peut représenter des fonctions qu’un modèle à 2 couches ne peut pas exprimer exactement
En théorie des nœuds et sur le problème de la localisation d’Anderson, le KAN n’a pas seulement fourni des réponses, mais aussi des formules et relations associées, ce qui laisse penser qu’il pourrait être particulièrement utile pour des problèmes scientifiques avec peu de variables, comme en physique
Des travaux ultérieurs ont confirmé ses atouts sur des tâches d’interprétabilité et la résolution d’équations aux dérivées partielles, mais les MLP ont fait mieux en vision par ordinateur et en traitement audio, tandis que KAN 2.0 a été publié pour en améliorer l’usage

Le MLP comme boîte noire et l’arrivée du KAN

Le composant de base le plus représentatif des réseaux neuronaux modernes est le multilayer perceptron (MLP), qui offre de fortes performances lorsqu’il est étendu à de grands jeux de données
Malgré leur succès, les réseaux basés sur des MLP rendent difficile pour les humains de comprendre comment une conclusion est produite, et il n’est pas non plus facile de déterminer s’il existe des principes fondamentaux expliquant leurs résultats
En avril 2024, le papier sur KAN a proposé le Kolmogorov-Arnold network (KAN), plus transparent tout en étant capable d’accomplir presque tout ce que font les réseaux neuronaux ordinaires sur certaines catégories de problèmes
Pour Alan Yuille, de la Johns Hopkins University, le KAN offre une meilleure interprétabilité et pourrait être particulièrement utile dans des applications scientifiques où il faut extraire des règles scientifiques à partir des données

Comment le KAN ajuste les fonctions

Un réseau neuronal classique relie des couches de neurones artificiels ou de nœuds par des arêtes, et ajuste les poids de chaque arête pendant l’apprentissage afin que la sortie se rapproche de la bonne réponse
Un objectif fréquent des réseaux neuronaux est de trouver la fonction mathématique ou la courbe qui relie au mieux les points de données
- Si l’on modélise un processus physique, on espère que la fonction de sortie prendra la forme d’une équation décrivant la physique, autrement dit d’une loi physique
Pour les MLP, il existe des théorèmes mathématiques indiquant jusqu’à quel point ils peuvent s’approcher de la fonction optimale possible, mais il en résulte qu’un MLP ne peut pas représenter parfaitement cette fonction
Le KAN ne place pas de simples poids numériques sur les arêtes, mais des fonctions non linéaires apprenables
- Ces fonctions d’arête peuvent représenter des courbes plus complexes
- Elles peuvent être ajustées plus finement que les poids numériques d’un MLP

Le théorème de 1957 et 35 ans de scepticisme

Au cœur du KAN se trouvent des résultats mathématiques publiés séparément en 1957 par Andrey Kolmogorov et Vladimir Arnold
- Ils montrent qu’une fonction mathématique à plusieurs variables peut être transformée en une combinaison de fonctions à une seule variable
La contrainte importante est que les fonctions à une variable produites par le théorème peuvent ne pas être lisses
- Elles peuvent avoir des pointes aiguës, comme le sommet d’un V
- Or, pour qu’un réseau se courbe vers la valeur cible pendant l’apprentissage, les briques élémentaires à une variable doivent être lisses
Un article publié en 1989 par Tomaso Poggio du MIT et ses collègues affirmait explicitement que l’idée mathématique centrale du KAN était « sans pertinence dans le contexte des réseaux pour l’apprentissage »
Ziming Liu et Max Tegmark ont relevé que, même si les fonctions à une variable ne sont pas lisses, le réseau peut les approximer par des fonctions lisses, et que la plupart des fonctions rencontrées en science sont lisses
Comme les logiciels et le matériel ont énormément progressé depuis 1989, Liu a voulu retenter une idée passée inaperçue à l’époque

Du KAN à 2 couches au KAN multicouche

Liu a construit en environ une semaine un prototype de KAN à 2 couches, la forme la plus simple, mais n’a pas obtenu de bonnes performances sur les tâches scientifiques visées
Le KAN à 2 couches semblait naturellement correspondre à la structure du théorème de Kolmogorov-Arnold, qui décompose une fonction multivariable en fonctions internes et en un ensemble de fonctions externes
Tegmark a proposé d’essayer un KAN avec plus de deux couches, et cette approche a porté ses fruits
L’équipe a monté une collaboration avec des collègues du MIT, du California Institute of Technology et de Northeastern University, incluant des mathématiciens et des spécialistes des domaines d’application
Dans leur article d’avril 2024, les chercheurs ont montré qu’un KAN à 3 couches était possible, et ont présenté des cas où il exprime exactement des fonctions qu’un KAN à 2 couches ne peut pas représenter exactement
Ils ont ensuite expérimenté jusqu’à 6 couches, constatant qu’à mesure que le nombre de couches augmente, il devient possible d’ajuster des fonctions de sortie plus complexes

Une interprétabilité révélée sur des problèmes concrets

Théorie des nœuds
- En 2021, une équipe de DeepMind avait créé un MLP qui prédit une propriété topologique d’un nœud donné à partir de plusieurs propriétés de ce nœud
- Le nouveau KAN a reproduit ce résultat, tout en montrant comment la propriété prédite est liée aux autres propriétés
- Liu estime que c’est quelque chose qu’un MLP ne peut absolument pas faire
Localisation d’Anderson
- Le deuxième problème concerne le phénomène de localisation d’Anderson en physique de la matière condensée
- L’objectif était de prédire la frontière où se produit une certaine transition de phase et de trouver la formule mathématique qui explique ce processus
- Les MLP n’avaient jamais réussi cette tâche, alors que le KAN de l’équipe y est parvenu
- Tegmark considère que le plus grand avantage du KAN, ainsi que la principale motivation des développements récents, réside dans son interprétabilité
- Il décrit une forme d’interprétabilité comme le fait, à partir de données, de produire une formule qu’on pourrait écrire sur un t-shirt
- Brice Ménard, de Johns Hopkins, estime que si un problème peut réellement être expliqué par une équation simple, alors le KAN est plutôt bon pour la trouver
- Cela dit, le domaine où le KAN fonctionne le mieux pourrait se limiter à des problèmes avec très peu de variables dans les équations, comme en physique

Travaux ultérieurs et KAN 2.0

L’article de Liu et Tegmark sur le KAN a été cité 75 fois en environ trois mois, et d’autres groupes de recherche ont commencé leurs propres travaux sur le sujet
Un article mis en ligne en juin 2024 par Yizheng Wang de Tsinghua University et ses collègues affirme que les réseaux neuronaux fondés sur Kolmogorov-Arnold (KINN) surpassent largement les MLP pour la résolution d’équations aux dérivées partielles (PDE)
- Wang souligne que les PDE sont présentes dans l’ensemble des sciences
Un article de juillet 2024, publié par des chercheurs de la National University of Singapore, présente des résultats plus mitigés
- Le KAN a fait mieux que les MLP sur des tâches liées à l’interprétabilité
- En vision par ordinateur et en traitement audio, les MLP ont donné de meilleurs résultats
- En traitement du langage naturel et sur d’autres tâches de machine learning, les deux réseaux étaient globalement similaires
Liu juge ces résultats peu surprenants
- Le travail initial sur le KAN se concentrait avant tout sur des tâches scientifiques où l’interprétabilité est prioritaire
En août 2024, Liu et ses collaborateurs ont publié l’article KAN 2.0
- Liu le décrit comme plus proche d’un manuel utilisateur que d’un article académique traditionnel
- KAN 2.0 est plus facile à utiliser et propose des outils de multiplication absents du modèle d’origine, entre autres

D’une approche orientée application à une approche orientée compréhension

Liu et ses coauteurs estiment que le KAN peut faire plus qu’atteindre un objectif donné : il peut favoriser une science guidée par la curiosité
L’approche longtemps dominante en machine learning a été une science orientée application
- Par exemple, lorsqu’on observe le mouvement des corps célestes, une recherche orientée application se concentre sur la prédiction de leur état futur
- Une recherche guidée par la curiosité cherche plutôt à révéler la physique sous-jacente à ce mouvement
Avec le KAN, les chercheurs peuvent non seulement s’aider d’un réseau neuronal pour résoudre des problèmes de calcul difficiles, mais aussi l’utiliser avec pour objectif la compréhension elle-même

1 commentaires

GN⁺ 2024-09-14

Avis sur Hacker News

L’auteur principal de KAN a donné hier une session tutoriel à MLCAD, une conférence qui traite de l’intersection entre la conception matériel/semi-conducteurs et le machine learning/deep learning
Pour obtenir des intuitions et des interprétations sur des systèmes physiques, par exemple des expressions symboliques, des quantités conservées ou des symétries, cela semblait vraiment intéressant et bien adapté
Cela peut être utile en sciences et en mathématiques, mais en ingénierie, cette interprétabilité n’est peut-être pas l’objectif prioritaire du machine learning/deep learning
La capacité à apprendre des tâches plus difficiles, ou la capacité d’apprentissage, reste incertaine, et le choix des fonctions de base utilisées pour l’« activation » des KAN, ou encore les architectures auxquelles rattacher cette couche pour en tirer un bénéfice, ont encore été peu explorés
Je pense qu’on aura davantage de réponses à ces questions quand les gens expérimenteront plus avec les KAN
- Il existe une présentation du même auteur datant d’il y a 2 mois : https://www.youtube.com/watch?v=FYYZZVV5vlY
- Je me demande s’il existe une version publique de cette session
Je pense que c’est impossible
Ce n’est pas parce qu’une opération interne est compréhensible que l’ensemble du réseau de neurones devient compréhensible
Il suffit de regarder les arbres de décision, bien plus simples : dans les manuels, ils sont présentés comme des systèmes compréhensibles qui prennent des décisions une caractéristique à la fois et produisent une sortie aux feuilles
C’était vrai dans les années 90, quand les ordinateurs étaient lents et les arbres petits, mais aujourd’hui, d’énormes arbres de décision et des forêts aléatoires peuvent produire des arbres de plusieurs millions de nœuds, et ceux-là ne sont pas interprétables
Il existe un fossé mathématique fondamental dans la compréhension des systèmes complexes, et un type de réseau de neurones supplémentaire ne le comblera pas
- Je me demande : « Newton aurait-il pu utiliser ça pour trouver les formules des forces qu’il analysait, par exemple gravité = g m_1 m_2 / d^2 ? »
  J’avais demandé un jour à un professeur de physique si c’était possible en principe, et il m’avait répondu que oui
  KAN semble capable de retrouver ce genre de formule à partir de données expérimentales, et si c’est vrai, je pense que cela mérite d’être appelé interprétabilité
- Il se peut qu’il n’existe tout simplement pas de formules ou d’équations permettant de raisonner sur des systèmes complexes
  Pour raisonner sur la complexité, il est fort possible qu’il faille en réalité exécuter cette complexité telle quelle
- Je suis globalement d’accord, et pour des modèles non linéaires suffisamment complexes, la quête d’interprétabilité me semble vaine
  Cela dit, je serais plutôt surpris s’il n’y avait pas un jour une percée réussie dans les domaines de la dynamique non linéaire ou de la formation de motifs
- Même un arbre de décision très complexe reste interprétable dans une certaine mesure
  Parce qu’on peut suivre l’arbre et répondre à des questions comme « si cette condition n’avait pas été vraie, le résultat aurait-il changé ? »
  Il est difficile de garder tout l’arbre en tête d’un coup, mais il est possible d’examiner le chemin réellement emprunté quand on a besoin de le comprendre
- Beaucoup de gens qualifient les ensembles d’arbres de boîtes noires
  Je les vois plutôt comme des boîtes grises, voire gris foncé
  On peut les interpréter si on le veut, mais qui a vraiment envie de parcourir 500 arbres en entier ?
L’algorithme de simplification semi-automatique fourni dans l’article sur KAN semble résoudre un problème proche de celui de https://arxiv.org/pdf/2112.04035
Sauf qu’il ne s’agit pas d’un compresseur abstrait généralisé : il y a une contrainte supplémentaire, à savoir viser l’interprétabilité de la fonction de propagation avant
Ce n’est pas le cas
Sur des problèmes triviaux d’ajustement de fonctions, KAN permet de visualiser dans quelle mesure chaque fonction de base contribue à la couche suivante
Mais ces réseaux de neurones superficiels et triviaux n’ont presque jamais besoin d’être inspectés dès le départ
Les réseaux de neurones profonds ne deviennent pas explicables avec cette approche
- Exact
  Je ne sais pas si quelque chose qui compte des millions à des milliards de paramètres pourra devenir « explicable » de la façon dont nous le souhaitons
  Imaginez qu’on écrive sur un immense tableau blanc une fonction multivariée générale comportant des milliards de termes : comprendrait-on vraiment pourquoi elle produit tel nombre ?
  KAN peut avoir peut-être un ordre de grandeur de paramètres en moins, mais le problème fondamental reste le même
Ce n’est peut-être pas directement lié au sujet, mais je me pose une question
L’une des forces des réseaux de neurones est d’exploiter le gigantesque parallélisme fourni par les GPU ; est-ce qu’on ne laisse pas de la capacité de calcul inutilisée en n’employant que des poids scalaires ?
Et si l’on utilisait des matrices de fonctions au lieu de matrices de poids ?
- Il vaut mieux considérer que les réseaux de neurones sont déjà composés de fonctions
  Des ensembles de nœuds empilés en couches deviennent des fonctions non linéaires complexes
  Par exemple, même un petit réseau de neurones à 3 couches peut être entraîné à modéliser une fonction spline cubique
  L’intérieur de la fonction est appris à chaque étape, à chaque addition et multiplication
  On peut considérer que le nombre de fonctions dans un réseau de neurones est une fraction du nombre de poids ; c’est pourquoi, en théorie, c’est plus flexible et plus puissant que de modéliser directement des fonctions plus complexes
  Si l’on connaît la bonne fonction, on pourrait modéliser un petit MLP à fonction fixe avec cette fonction spécifique afin d’améliorer l’efficacité de l’apprentissage, mais on risque aussi de perdre en performance si l’on n’est pas prudent
  Le principal problème est qu’on ne sait pas quelles fonctions utiliser, et l’ajout de fonctions non linéaires peut introduire de nouvelles difficultés en matière de performance, de précision, d’initialisation et de régularisation
  Les mathématiques linéaires sont simples et puissantes, et peuvent déjà modéliser des fonctions complexes, mais les mathématiques non linéaires peuvent aussi être utiles ; il semble donc nécessaire de poursuivre les recherches
- Les GPU sont optimisés pour les matrices de valeurs en virgule flottante, donc les réseaux de neurones actuels reposent sur des matrices contenant des poids scalaires
- Cette description ressemble beaucoup aux processus gaussiens profonds
- Ajouter une non-linéarité à chaque ligne ou colonne des poids revient justement à créer une fonction apprenable
Cela a aussi été discuté récemment ici : https://news.ycombinator.com/item?id=40219205
Dans les applications scientifiques, le cœur de l’interprétabilité réside dans la régression symbolique
Un MLP ne peut pas toujours produire une équation pour un jeu de données donné, mais KAN le peut
- Je croyais que les MLP étaient des approximateurs universels de fonctions : https://en.wikipedia.org/wiki/Universal_approximation_theorem
Pouvez-vous expliquer ce qui est exactement « inconnu » dans un réseau de neurones ?
Nous l’avons construit, nous savons de quoi il est composé et comment il fonctionne.
Même si nous ne pouvons pas faire correspondre une à une toutes les connexions entre les nœuds de ce « perceptron multicouche », nous savons bien comment ces connexions se forment, non ?
- Les LLM récents comme GPT-4o peuvent comprendre nativement du texte encodé en b64.
  Nous disposons nous aussi d’algorithmes pour décoder et encoder du texte b64, mais GPT-4o exécute-t-il tel quel cet algorithme ?
  L’entraînement a-t-il appris cet algorithme ? Manifestement non, ou du moins pas complètement.
  Car des fautes de frappe en b64 qui rendraient impossible l’extraction du sens du texte original avec notre algorithme ne posent presque aucun problème à 4o.
  Alors, comment décode-t-il le b64 ? Nous ne le savons pas.
  Nous ne « construisons » pas vraiment un réseau de neurones : nous créons une architecture et nous l’entraînons.
  En dehors de la fourniture des données d’entraînement, ce qui est appris échappe au contrôle direct des humains.
  À l’exception de petits exemples jouets, ce qui a été appris reste en grande partie inconnu.
  Nous savons aussi que des connexions se forment, nous pouvons voir les poids, et nous pouvons voir les multiplications matricielles.
  Mais nous ne savons pas ce que font ces calculs, ni ce qu’ils signifient.
  Peut-on dire qu’un extraterrestre comprend du code C simplement parce qu’il peut voir ce code s’exécuter ?
- Nous ne savons pas ce que signifie chaque connexion, ni quelles informations sont encodées dans chaque poids.
  Nous ne savons pas non plus comment le comportement changerait si l’on modifiait chacun des millions, voire des milliers de milliards, de poids.
  Par comparaison avec un dictionnaire, dans un dictionnaire, on sait clairement quelles informations se trouvent sur chaque page et à chaque ligne.
- En omettant quelques détails, un modèle applique de nombreuses fonctions de grande dimension à son entrée, et nous ne savons pas pourquoi ces fonctions résolvent le problème.
  Réduire la dimension des poids à des valeurs lisibles par un humain n’a rien de trivial, et de nombreux neurones interagissent de manière difficile à prévoir.
  Les travaux sur l’interprétabilité ont produit beaucoup de résultats utiles et de belles visualisations[1][2], et de nombreux efforts cherchent aussi à comprendre les Transformers[3][4], mais nous sommes encore loin de pouvoir expliquer entièrement les grands modèles actuellement utilisés.
  [1] - https://distill.pub/2018/building-blocks/
  [2] - https://distill.pub/2019/activation-atlas/
  [3] - https://transformer-circuits.pub/
  [4] - https://arxiv.org/pdf/2407.02646
- Un LLM n’est pas un cerveau, mais le cerveau constitue une analogie utile.
  De même que regarder tous nos neurones ne suffit pas à comprendre entièrement comment nous pensons, on ne peut pas comprendre un LLM par la seule analyse de ses composants individuels.
  Déchiffrer un LLM sera probablement plus facile que déchiffrer le cerveau, mais cela ne veut pas dire que ce soit facile.
- Nous savons comment les connexions se forment, et comment les faire se former.
  Simplement, nous ne savons pas pourquoi cette formation particulière résout le problème considéré.
  À vrai dire, même cette formulation n’est plus strictement exacte.
  Car de nombreuses recherches sont en cours sur ce qui se passe à l’intérieur de la boîte noire.
  Le problème, c’est que cela n’a jamais été une boîte noire complète : on a toujours pu regarder à l’intérieur, mais c’était difficile à comprendre.
  Les KAN aident à en transférer une partie vers une formulation mathématique, et produire des cartes d’activation sur les données apporte également des éclairages similaires.

Les réseaux Kolmogorov-Arnold pourraient améliorer la compréhension des réseaux neuronaux

Le MLP comme boîte noire et l’arrivée du KAN

Comment le KAN ajuste les fonctions

Le théorème de 1957 et 35 ans de scepticisme

Du KAN à 2 couches au KAN multicouche

Une interprétabilité révélée sur des problèmes concrets

Théorie des nœuds

Localisation d’Anderson

Travaux ultérieurs et KAN 2.0

D’une approche orientée application à une approche orientée compréhension

À lire aussi

1 commentaires

Avis sur Hacker News