Le deep learning n’est ni si mystérieux, ni si différent

(arxiv.org)

30 points par GN⁺ 2025-03-18 | 1 commentaires | Partager sur WhatsApp

Il existe une perception selon laquelle le phénomène de généralisation des modèles de deep learning serait différent des modèles existants et mystérieux
Le surapprentissage (overfitting), la double descente (double descent) et la surparamétrisation (overparametrization) sont souvent cités comme des caractéristiques du deep learning
Cependant, ces phénomènes ne sont pas propres aux réseaux de neurones et peuvent être expliqués par d’anciens cadres de généralisation comme PAC-Bayes et les bornes sur les hypothèses dénombrables
Le concept de « biais inductifs souples (soft inductive biases) » est le principe clé qui permet d’expliquer ces phénomènes de généralisation

Biais inductifs souples (Soft Inductive Biases)

Les biais inductifs classiques limitent l’espace des hypothèses afin d’améliorer les performances de généralisation
Les biais inductifs souples conservent la flexibilité de l’espace des hypothèses tout en accordant une préférence à certaines solutions
Comme dans les CNN, où le partage de paramètres préserve la localité et l’invariance par translation, ils ajoutent une régularisation douce sur certaines propriétés
Même dans les modèles surparamétrés, les bonnes performances de généralisation s’expliquent par l’action de ces biais inductifs souples

Cadres de généralisation (Generalization Frameworks)

PAC-Bayes et bornes sur les hypothèses dénombrables

PAC-Bayes explique le risque de généralisation à partir du risque empirique et de la compressibilité du modèle
Même un grand modèle peut offrir de bonnes performances de généralisation s’il reste simple et compressible
Formule :
- risque attendu ≤ risque empirique + terme lié à la compressibilité

Dimension effective (Effective Dimensionality)

La dimension effective = le nombre de grandes valeurs propres de la Hessienne de la fonction de perte du modèle
Plus la dimension effective est faible, plus le modèle est simple et meilleure est sa généralisation

Autres cadres de généralisation

La complexité de Rademacher, la dimension VC, etc., expliquent mal les phénomènes du deep learning
PAC-Bayes et les bornes sur les hypothèses dénombrables permettent de résoudre ce problème

Principaux phénomènes

Surapprentissage bénin (Benign Overfitting)

Phénomène où le modèle apprend parfaitement jusqu’au bruit tout en conservant de bonnes performances de généralisation
Le surapprentissage bénin peut aussi être reproduit avec de simples modèles linéaires
Il peut être expliqué par PAC-Bayes et les bornes sur les hypothèses dénombrables

Surparamétrisation (Overparametrization)

Les modèles peuvent conserver d’excellentes performances de généralisation même lorsque le nombre de paramètres dépasse celui des données
Les grands modèles généralisent bien parce qu’ils peuvent être compressés après l’apprentissage en une structure plus simple

Double descente (Double Descent)

Quand la complexité du modèle augmente, la perte diminue, puis augmente, avant de diminuer à nouveau
Ce phénomène peut aussi être reproduit avec des modèles linéaires
Il peut être expliqué par la dimension effective et la compressibilité du modèle

Point de vue alternatif (Alternative Views)

L’idée selon laquelle la généralisation du deep learning serait mystérieuse vient d’une dépendance à des cadres de généralisation limités
Les phénomènes de généralisation peuvent être expliqués via PAC-Bayes et les bornes sur les hypothèses dénombrables
La perception d’un caractère mystérieux de la généralisation en deep learning peut relever d’un préjugé erroné

Éléments distinctifs du deep learning (Distinctive Features of Deep Learning)

Apprentissage de représentations (Representation Learning)

Les réseaux de neurones sont capables d’apprendre la similarité dans les données
Ils peuvent mesurer la similarité mieux que la distance euclidienne dans les données de grande dimension
Ils sont favorables à l’interpolation et à l’extrapolation en grande dimension

Apprentissage universel (Universal Learning)

Les modèles de deep learning affichent de bonnes performances de manière cohérente dans des domaines variés
Ils excellent en transfert d’apprentissage et en apprentissage in-context (in-context learning)

Connectivité des modes (Mode Connectivity)

Des modèles entraînés à partir d’initialisations différentes peuvent être reliés en suivant une courbe simple
Cette propriété est exploitée dans des techniques d’entraînement comme SWA (Stochastic Weight Averaging)

Conclusion et perspectives

Le surapprentissage bénin, la surparamétrisation et la double descente ne sont pas des phénomènes propres aux réseaux de neurones
Ils peuvent être expliqués par PAC-Bayes et les bornes sur les hypothèses dénombrables
Le deep learning se distingue par des caractéristiques comme l’apprentissage de représentations, l’apprentissage universel et la connectivité des modes
Les performances de généralisation proviennent non pas de la complexité du modèle, mais de sa compressibilité et de sa simplicité

1 commentaires

GN⁺ 2025-03-18

Avis Hacker News

Si vous vous intéressez au machine learning, le cours de Stanford « Probability for computer scientists » est une excellente ressource
- Ce cours traite en profondeur de la théorie des probabilités et des bases théoriques du machine learning
- Le cours d’Andrew Ng est également célèbre, mais il nécessite une compréhension mathématique de l’algèbre linéaire
- Pour le deep learning, l’introduction visuelle de 3b1b est utile
La stabilité algorithmique fournit une explication plus convaincante que les descendants de la théorie PAC-Bayes ou VC
- Des ressources connexes sont disponibles dans des articles sur arXiv
Si vous voulez comprendre le machine learning, je recommande « The StatQuest Illustrated Guide to Machine Learning » de Josh Starmer
- C’est un excellent pédagogue qui exprime des idées complexes de manière claire et concise
- Le format, proche d’un livre pour enfants, le rend facile à lire et à comprendre
- Je recommande aussi son livre récemment publié sur les réseaux de neurones
Les DNN n’ont pas de capacité de généralisation particulière
- Leur généralisation peut même être plus faible que celle de techniques mathématiquement plus rigoureuses comme les SVM
- Si l’on entraîne un DNN sur le jeu de données « Wine Quality » du dépôt UCI Machine Learning, on obtient de mauvais résultats et du surapprentissage
- La « magie » des LLM vient du paradigme d’entraînement
- On peut utiliser d’énormes modèles avec des jeux de données massifs sans surapprentissage
- Il y a 10 ans, le principe de « réutilisabilité » n’était pas clairement établi
Plutôt que de limiter l’espace des hypothèses pour éviter le surapprentissage, il est important d’accepter un espace d’hypothèses flexible et de privilégier des solutions simples compatibles avec les données
- Cela soulève la question de savoir comment le deep learning y parvient
- Par le passé, on utilisait une approche de vraisemblance avec pénalisation
- J’ai eu l’impression qu’en deep learning, la manière de pénaliser la complexité était plus complexe et moins intuitive
Quand j’ai débuté en deep learning, apprendre la preuve du théorème d’approximation universelle m’a énormément aidé
- Comprendre pourquoi les réseaux de neurones peuvent approximer des fonctions permet de mieux comprendre tout ce qui est construit au-dessus
Un exemple intéressant où des réseaux « profonds » sont nécessaires est discuté dans un article récent sur les RNN
- Les modèles minGRU et minLSTM ne modélisent pas explicitement les dépendances d’état, mais peuvent les apprendre s’ils sont suffisamment profonds
Il existe l’idée de collecter des données textuelles et de créer un algorithme prédictif en stockant les distances entre les mots
- Je me demande à quel point cette méthode se rapproche de GPT-2
Je me demande où se situe la frontière de ce qui est défini et réglementé comme de l’« IA »
Un neurone artificiel consiste à rendre une régression linéaire non linéaire en y ajoutant une fonction d’activation
- Lorsqu’on les organise en réseau, cela produit des résultats intéressants

Le deep learning n’est ni si mystérieux, ni si différent

Biais inductifs souples (Soft Inductive Biases)

Cadres de généralisation (Generalization Frameworks)

PAC-Bayes et bornes sur les hypothèses dénombrables

Dimension effective (Effective Dimensionality)

Autres cadres de généralisation

Principaux phénomènes

Surapprentissage bénin (Benign Overfitting)

Surparamétrisation (Overparametrization)

Double descente (Double Descent)

Point de vue alternatif (Alternative Views)

Éléments distinctifs du deep learning (Distinctive Features of Deep Learning)

Apprentissage de représentations (Representation Learning)

Apprentissage universel (Universal Learning)

Connectivité des modes (Mode Connectivity)

Conclusion et perspectives

À lire aussi

1 commentaires

Avis Hacker News