1 points par GN⁺ 2024-09-14 | 1 commentaires | Partager sur WhatsApp

Une nouvelle architecture rend les réseaux neuronaux plus faciles à comprendre

  • Introduction

    • Les réseaux neuronaux sont aujourd’hui l’un des outils les plus puissants de l’intelligence artificielle
    • Mais il est difficile de comprendre comment ils arrivent à leurs conclusions
    • Les réseaux Kolmogorov-Arnold (KAN) sont proposés comme une alternative plus transparente
  • Ajuster l’impossible

    • Les réseaux neuronaux classiques sont composés de neurones artificiels et de synapses
    • Les MLP peuvent approcher une fonction optimale, mais ne peuvent pas la représenter parfaitement
    • Les KAN utilisent des fonctions non linéaires pour représenter des courbes plus complexes
  • Histoire et redécouverte des KAN

    • Un article de 1989 indiquait que les KAN n’étaient pas pratiques
    • En 2024, des chercheurs du MIT ont réexaminé les KAN et y ont découvert de nouvelles possibilités
  • Structure et performances des KAN

    • Ils peuvent traiter des tâches plus complexes en utilisant deux couches ou plus
    • Appliqués à des problèmes réels, ils montrent de meilleures performances que les MLP
  • Interprétabilité

    • Les KAN peuvent expliquer leurs résultats à l’aide de formules simples
    • Cela les rend particulièrement utiles pour les applications scientifiques
  • L’avenir des KAN

    • KAN 2.0 est développé comme une version plus pratique et plus facile à utiliser
    • Ils pourraient favoriser une science guidée par la curiosité

# Le résumé de GN⁺

  • Les KAN peuvent accroître la transparence des réseaux neuronaux et contribuer aux découvertes scientifiques
  • Ils ont le potentiel de résoudre des problèmes plus complexes que les MLP
  • Ils sont particulièrement utiles dans les applications scientifiques et peuvent expliquer leurs résultats avec des formules simples
  • KAN 2.0 est en cours de développement comme une version plus pratique et plus facile à utiliser
  • Ils ont le potentiel de devenir un outil favorisant une science guidée par la curiosité

1 commentaires

 
GN⁺ 2024-09-14
Commentaires sur Hacker News
  • L’auteur principal des KAN a animé une session tutorielle à la MLCAD

    • Il s’agit d’une conférence académique centrée sur l’intersection entre la conception matériel/semi-conducteurs et le ML/deep learning
    • Utile pour obtenir des éclairages et une interprétation sur les systèmes physiques
    • Utile pour la science et les mathématiques, mais ce n’est peut-être pas une priorité majeure en ingénierie
    • Il reste encore beaucoup de domaines inexplorés, comme la capacité d’apprentissage sur des problèmes difficiles et l’usage de fonctions de base sélectionnées
  • Le fait que le fonctionnement interne soit compréhensible ne signifie pas que l’ensemble du réseau le soit

    • Les arbres de décision sont cités comme exemple de système interprétable
    • Les grands arbres de décision actuels et les random forests peuvent compter des millions de nœuds
    • Il existe un fossé mathématique dans la compréhension des systèmes complexes
  • Les KAN permettent de visualiser la contribution de chaque fonction de base, mais cela ne vaut que pour des problèmes simples

    • Les réseaux neuronaux profonds ne peuvent pas être expliqués avec cette approche
  • L’algorithme de simplification (semi-)automatisé des KAN est similaire à la résolution de certains problèmes

    • Il ne vise pas un simple compresseur d’abstractions, mais l’interprétabilité fonctionnelle
  • Le cœur de l’interprétabilité est la régression symbolique

    • Un MLP ne fournit pas toujours une équation du jeu de données, mais un KAN le peut
  • Quelqu’un demande si cela peut expliquer ce que sont les « inconnues » des réseaux neuronaux

    • On construit un réseau neuronal et on connaît ses composants ainsi que leur fonctionnement
    • On ne peut pas cartographier toutes les connexions, mais on sait comment elles se forment
  • La puissance des réseaux neuronaux vient de leur capacité à exploiter le parallélisme massif des GPU

    • Quelqu’un demande si n’utiliser que des poids scalaires ne gaspille pas les ressources de calcul
    • Il se demande ce qui se passerait si l’on utilisait une matrice de fonctions au lieu d’une matrice de poids