- Il existe une perception selon laquelle le phénomène de généralisation des modèles de deep learning serait différent des modèles existants et mystérieux
- Le surapprentissage (overfitting), la double descente (double descent) et la surparamétrisation (overparametrization) sont souvent cités comme des caractéristiques du deep learning
- Cependant, ces phénomènes ne sont pas propres aux réseaux de neurones et peuvent être expliqués par d’anciens cadres de généralisation comme PAC-Bayes et les bornes sur les hypothèses dénombrables
- Le concept de « biais inductifs souples (soft inductive biases) » est le principe clé qui permet d’expliquer ces phénomènes de généralisation
Biais inductifs souples (Soft Inductive Biases)
- Les biais inductifs classiques limitent l’espace des hypothèses afin d’améliorer les performances de généralisation
- Les biais inductifs souples conservent la flexibilité de l’espace des hypothèses tout en accordant une préférence à certaines solutions
- Comme dans les CNN, où le partage de paramètres préserve la localité et l’invariance par translation, ils ajoutent une régularisation douce sur certaines propriétés
- Même dans les modèles surparamétrés, les bonnes performances de généralisation s’expliquent par l’action de ces biais inductifs souples
Cadres de généralisation (Generalization Frameworks)
PAC-Bayes et bornes sur les hypothèses dénombrables
- PAC-Bayes explique le risque de généralisation à partir du risque empirique et de la compressibilité du modèle
- Même un grand modèle peut offrir de bonnes performances de généralisation s’il reste simple et compressible
- Formule :
- risque attendu ≤ risque empirique + terme lié à la compressibilité
Dimension effective (Effective Dimensionality)
- La dimension effective = le nombre de grandes valeurs propres de la Hessienne de la fonction de perte du modèle
- Plus la dimension effective est faible, plus le modèle est simple et meilleure est sa généralisation
Autres cadres de généralisation
- La complexité de Rademacher, la dimension VC, etc., expliquent mal les phénomènes du deep learning
- PAC-Bayes et les bornes sur les hypothèses dénombrables permettent de résoudre ce problème
Principaux phénomènes
Surapprentissage bénin (Benign Overfitting)
- Phénomène où le modèle apprend parfaitement jusqu’au bruit tout en conservant de bonnes performances de généralisation
- Le surapprentissage bénin peut aussi être reproduit avec de simples modèles linéaires
- Il peut être expliqué par PAC-Bayes et les bornes sur les hypothèses dénombrables
Surparamétrisation (Overparametrization)
- Les modèles peuvent conserver d’excellentes performances de généralisation même lorsque le nombre de paramètres dépasse celui des données
- Les grands modèles généralisent bien parce qu’ils peuvent être compressés après l’apprentissage en une structure plus simple
Double descente (Double Descent)
- Quand la complexité du modèle augmente, la perte diminue, puis augmente, avant de diminuer à nouveau
- Ce phénomène peut aussi être reproduit avec des modèles linéaires
- Il peut être expliqué par la dimension effective et la compressibilité du modèle
Point de vue alternatif (Alternative Views)
- L’idée selon laquelle la généralisation du deep learning serait mystérieuse vient d’une dépendance à des cadres de généralisation limités
- Les phénomènes de généralisation peuvent être expliqués via PAC-Bayes et les bornes sur les hypothèses dénombrables
- La perception d’un caractère mystérieux de la généralisation en deep learning peut relever d’un préjugé erroné
Éléments distinctifs du deep learning (Distinctive Features of Deep Learning)
Apprentissage de représentations (Representation Learning)
- Les réseaux de neurones sont capables d’apprendre la similarité dans les données
- Ils peuvent mesurer la similarité mieux que la distance euclidienne dans les données de grande dimension
- Ils sont favorables à l’interpolation et à l’extrapolation en grande dimension
Apprentissage universel (Universal Learning)
- Les modèles de deep learning affichent de bonnes performances de manière cohérente dans des domaines variés
- Ils excellent en transfert d’apprentissage et en apprentissage in-context (in-context learning)
Connectivité des modes (Mode Connectivity)
- Des modèles entraînés à partir d’initialisations différentes peuvent être reliés en suivant une courbe simple
- Cette propriété est exploitée dans des techniques d’entraînement comme SWA (Stochastic Weight Averaging)
Conclusion et perspectives
- Le surapprentissage bénin, la surparamétrisation et la double descente ne sont pas des phénomènes propres aux réseaux de neurones
- Ils peuvent être expliqués par PAC-Bayes et les bornes sur les hypothèses dénombrables
- Le deep learning se distingue par des caractéristiques comme l’apprentissage de représentations, l’apprentissage universel et la connectivité des modes
- Les performances de généralisation proviennent non pas de la complexité du modèle, mais de sa compressibilité et de sa simplicité
1 commentaires
Avis Hacker News
Si vous vous intéressez au machine learning, le cours de Stanford « Probability for computer scientists » est une excellente ressource
La stabilité algorithmique fournit une explication plus convaincante que les descendants de la théorie PAC-Bayes ou VC
Si vous voulez comprendre le machine learning, je recommande « The StatQuest Illustrated Guide to Machine Learning » de Josh Starmer
Les DNN n’ont pas de capacité de généralisation particulière
Plutôt que de limiter l’espace des hypothèses pour éviter le surapprentissage, il est important d’accepter un espace d’hypothèses flexible et de privilégier des solutions simples compatibles avec les données
Quand j’ai débuté en deep learning, apprendre la preuve du théorème d’approximation universelle m’a énormément aidé
Un exemple intéressant où des réseaux « profonds » sont nécessaires est discuté dans un article récent sur les RNN
Il existe l’idée de collecter des données textuelles et de créer un algorithme prédictif en stockant les distances entre les mots
Je me demande où se situe la frontière de ce qui est défini et réglementé comme de l’« IA »
Un neurone artificiel consiste à rendre une régression linéaire non linéaire en y ajoutant une fonction d’activation