2 points par GN⁺ 2024-05-02 | 1 commentaires | Partager sur WhatsApp

Introduction aux réseaux Kolmogorov-Arnold (KANs)

Définition et caractéristiques des KAN

  • Les Kolmogorov-Arnold Networks (KANs) sont une alternative prometteuse aux Multi-Layer Perceptrons (MLPs)
  • Les KANs ont une base mathématique solide, au même titre que les MLPs
    • Les MLPs s'appuient sur le théorème d'approximation universelle
    • Les KANs s'appuient sur le théorème de représentation de Kolmogorov-Arnold
  • Les KANs et les MLPs sont des systèmes duaux
    • Les KANs ont des fonctions d'activation sur les arêtes (edge)
    • Les MLPs ont des fonctions d'activation sur les nœuds (node)
  • Grâce à ce changement simple, les KANs montrent de meilleures performances que les MLPs en termes de précision et d'interprétabilité (parfois beaucoup meilleures)

Précision des KAN

  • Les KANs affichent une mise à l'échelle (scaling) plus rapide que les MLPs
  • Les KANs obtiennent une meilleure précision que les MLPs avec moins de paramètres
  • Exemples
    • Ajustement de formules symboliques
    • Ajustement de fonctions spéciales
    • Résolution d'équations aux dérivées partielles (PDE)
    • Évitement de l'oubli catastrophique

Interprétabilité des KAN

  • Les KANs peuvent être visualisés de manière intuitive
  • Les KANs offrent une interprétabilité et une interacti- vité que les MLPs ne peuvent pas fournir
  • Les KANs permettent potentiellement de découvrir de nouvelles lois scientifiques
  • Exemples
    • Interprétation symbolique
    • Découverte de la loi mathématique des nœuds
    • Découverte de la loi physique de l'Anderson localization
    • Interprétation du processus d'apprentissage d'un KAN à 3 couches

Installation

  • pykan peut être installé via pypi ou GitHub
  • Méthodes d'installation via GitHub proposées
  • Méthodes d'installation via PyPI proposées
  • Les exigences sont précisées, ainsi que la manière de les installer

Exigences de calcul

  • Les exemples du tutoriel s'exécutent généralement sur un CPU unique en moins de 10 minutes
  • Tous les exemples de l'article s'exécutent en moins d'une journée sur un CPU unique
  • L'entraînement des KANs pour les PDE est le plus coûteux en calcul et peut prendre de quelques heures à quelques jours sur un CPU unique
  • Le front de Pareto (Pareto Frontier) est obtenu en entraînant les modèles sur CPU pour effectuer un parametric sweep
  • L'utilisation d'un GPU est recommandée pour les tâches de grande ampleur

Documentation

  • La documentation se trouve à l'URL liée

Tutoriels

  • Démarrage rapide : commencez avec le notebook hellokan.ipynb
  • Plus de démos : vous trouverez davantage de tutoriels au format notebook dans tutorials

Références

  • Méthode de citation de l'article fournie

Contact

  • Si vous avez des questions, vous pouvez contacter zmliu@mit.edu

Opinion de GN⁺

  • Les KAN sont une architecture de réseau intéressante comme alternative aux MLPs, avec une base mathématique solide et des avantages en précision et en interprétabilité. Cela dit, elle semble encore à un stade de recherche précoce, et une validation plus poussée de la performance sur de grands jeux de données ou des tâches complexes paraît nécessaire.

  • Là où les MLPs placent les fonctions d'activation sur les nœuds, les KANs les placent sur les arêtes. Cela constitue la différence clé, et il faudra analyser en détail les changements induits dans la structure du réseau et la manière d'apprendre.

  • L'interprétabilité des KAN peut aider à résoudre le problème de la boîte noire en IA. Le potentiel d'utilisation pour découvrir de nouvelles lois scientifiques est également intéressant. Néanmoins, comme la recherche sur l'IA explicable progresse déjà dans plusieurs directions, il semble utile de mettre en avant les points forts d'une approche distincte.

  • Les exemples présentés dans l'article sont surtout limités aux domaines mathématiques et scientifiques. Reste à déterminer si les KAN peuvent remplacer les MLPs dans d'autres domaines comme l'image ou le langage naturel.

  • Les approches de type Capsule Networks et Graph Neural Networks sont proches de KAN. Une comparaison avec eux permettrait de confirmer les avantages propres aux KAN.

1 commentaires

 
GN⁺ 2024-05-02
Avis Hacker News
  • Un utilisateur a présenté une implémentation simple de l'idée de l'article avec PyTorch. L'essentiel tient en quelques lignes de code et utilise des coefficients de Fourier pour interpoler des fonctions unidimensionnelles au lieu de splines. Cela montre la capacité d'expression des réseaux Kolmogorov-Arnold, et peut converger plus facilement que la version spline de l'article, mais avec un coût de calcul plus élevé.

  • Un autre utilisateur a partagé le résultat de tests effectués avec le notebook Jupyter fourni. Dans un problème de classification, modifier l'architecture du réseau de (2, 2) à (2, 2, 2) a empêché la généralisation ; lorsqu'on multiplie par 100 la taille des données d'entraînement, le surapprentissage s'améliore, mais la perte d'entraînement ne descend pas sous 1e-2. Il serait intéressant de tester des exemples et des données à plus grande échelle.

  • Dans un contexte où l'on se lasse des améliorations progressives des transformers, ce travail est apprécié pour proposer une idée neuve qui pourrait augmenter la capacité expressive des DNN existants. Il faut toutefois vérifier à l'avenir s'il y a réellement un gain de performance.

  • Il n'est pas clair quelles performances cette approche donnera à grande échelle concernant la scalabilité de l'algorithme lui-même (apprend-il encore bien avec plus de couches ?) et la possibilité d'exploiter l'accélération matérielle (la structure de fonctions d'activation par poids peut-elle tirer parti d'une multiplication matricielle accélérée ?). Elle montre des propriétés intéressantes à petite échelle, mais des recherches supplémentaires sont nécessaires pour savoir si c'est une architecture adaptée à des tâches comme ImageNet ou les LLM.

  • Il est intéressant que la représentation de Kolmogorov-Arnold et les MLP aient été découverts/inventés en 1957 et 1958, quasiment à la même période. Cette approche a aussi l'avantage d'avoir un seul type de paramètre (les coefficients de la fonction d'activation locale) par rapport aux poids, biais et fonction d'activation globale d'un MLP. Alors que les transformers dominent actuellement, certains souhaitent aussi l'appliquer aux diffusion models.

  • Le fait que les réseaux de Kolmogorov puissent représenter des fonctions discontinues est intéressant, mais la faisabilité pratique était incertaine. Ce dépôt montre qu'il existe un certain potentiel d'application.

  • Même si cela peut être une conclusion hâtive, le fait qu'une combinaison linéaire de B-splines donne une B-spline d'ordre supérieur laisse penser qu'il ne s'agirait que d'ajuster une B-spline de haut ordre à la fonction.

  • Le préprint qualifie une dimension d'entrée de 100 de « dimension élevée », et la plupart des problèmes de ML à forte inspiration physique ont typiquement moins de 5 dimensions. Selon les standards actuels, la prochaine étape serait une validation sur MNIST, qui n'a que 784 dimensions, donc plutôt petite.

  • Cela peut aussi donner l'impression qu'on a injecté des splines dans un arbre de décision.

  • Cela semble conceptuellement très proche de la méthode des éléments finis, et il est agréable de retrouver ce type de motif similaire entre disciplines.