30 points par GN⁺ 2025-03-18 | 1 commentaires | Partager sur WhatsApp
  • Il existe une perception selon laquelle le phénomène de généralisation des modèles de deep learning serait différent des modèles existants et mystérieux
  • Le surapprentissage (overfitting), la double descente (double descent) et la surparamétrisation (overparametrization) sont souvent cités comme des caractéristiques du deep learning
  • Cependant, ces phénomènes ne sont pas propres aux réseaux de neurones et peuvent être expliqués par d’anciens cadres de généralisation comme PAC-Bayes et les bornes sur les hypothèses dénombrables
  • Le concept de « biais inductifs souples (soft inductive biases) » est le principe clé qui permet d’expliquer ces phénomènes de généralisation

Biais inductifs souples (Soft Inductive Biases)

  • Les biais inductifs classiques limitent l’espace des hypothèses afin d’améliorer les performances de généralisation
  • Les biais inductifs souples conservent la flexibilité de l’espace des hypothèses tout en accordant une préférence à certaines solutions
  • Comme dans les CNN, où le partage de paramètres préserve la localité et l’invariance par translation, ils ajoutent une régularisation douce sur certaines propriétés
  • Même dans les modèles surparamétrés, les bonnes performances de généralisation s’expliquent par l’action de ces biais inductifs souples

Cadres de généralisation (Generalization Frameworks)

PAC-Bayes et bornes sur les hypothèses dénombrables

  • PAC-Bayes explique le risque de généralisation à partir du risque empirique et de la compressibilité du modèle
  • Même un grand modèle peut offrir de bonnes performances de généralisation s’il reste simple et compressible
  • Formule :
    • risque attendu ≤ risque empirique + terme lié à la compressibilité

Dimension effective (Effective Dimensionality)

  • La dimension effective = le nombre de grandes valeurs propres de la Hessienne de la fonction de perte du modèle
  • Plus la dimension effective est faible, plus le modèle est simple et meilleure est sa généralisation

Autres cadres de généralisation

  • La complexité de Rademacher, la dimension VC, etc., expliquent mal les phénomènes du deep learning
  • PAC-Bayes et les bornes sur les hypothèses dénombrables permettent de résoudre ce problème

Principaux phénomènes

Surapprentissage bénin (Benign Overfitting)

  • Phénomène où le modèle apprend parfaitement jusqu’au bruit tout en conservant de bonnes performances de généralisation
  • Le surapprentissage bénin peut aussi être reproduit avec de simples modèles linéaires
  • Il peut être expliqué par PAC-Bayes et les bornes sur les hypothèses dénombrables

Surparamétrisation (Overparametrization)

  • Les modèles peuvent conserver d’excellentes performances de généralisation même lorsque le nombre de paramètres dépasse celui des données
  • Les grands modèles généralisent bien parce qu’ils peuvent être compressés après l’apprentissage en une structure plus simple

Double descente (Double Descent)

  • Quand la complexité du modèle augmente, la perte diminue, puis augmente, avant de diminuer à nouveau
  • Ce phénomène peut aussi être reproduit avec des modèles linéaires
  • Il peut être expliqué par la dimension effective et la compressibilité du modèle

Point de vue alternatif (Alternative Views)

  • L’idée selon laquelle la généralisation du deep learning serait mystérieuse vient d’une dépendance à des cadres de généralisation limités
  • Les phénomènes de généralisation peuvent être expliqués via PAC-Bayes et les bornes sur les hypothèses dénombrables
  • La perception d’un caractère mystérieux de la généralisation en deep learning peut relever d’un préjugé erroné

Éléments distinctifs du deep learning (Distinctive Features of Deep Learning)

Apprentissage de représentations (Representation Learning)

  • Les réseaux de neurones sont capables d’apprendre la similarité dans les données
  • Ils peuvent mesurer la similarité mieux que la distance euclidienne dans les données de grande dimension
  • Ils sont favorables à l’interpolation et à l’extrapolation en grande dimension

Apprentissage universel (Universal Learning)

  • Les modèles de deep learning affichent de bonnes performances de manière cohérente dans des domaines variés
  • Ils excellent en transfert d’apprentissage et en apprentissage in-context (in-context learning)

Connectivité des modes (Mode Connectivity)

  • Des modèles entraînés à partir d’initialisations différentes peuvent être reliés en suivant une courbe simple
  • Cette propriété est exploitée dans des techniques d’entraînement comme SWA (Stochastic Weight Averaging)

Conclusion et perspectives

  • Le surapprentissage bénin, la surparamétrisation et la double descente ne sont pas des phénomènes propres aux réseaux de neurones
  • Ils peuvent être expliqués par PAC-Bayes et les bornes sur les hypothèses dénombrables
  • Le deep learning se distingue par des caractéristiques comme l’apprentissage de représentations, l’apprentissage universel et la connectivité des modes
  • Les performances de généralisation proviennent non pas de la complexité du modèle, mais de sa compressibilité et de sa simplicité

1 commentaires

 
GN⁺ 2025-03-18
Avis Hacker News
  • Si vous vous intéressez au machine learning, le cours de Stanford « Probability for computer scientists » est une excellente ressource

    • Ce cours traite en profondeur de la théorie des probabilités et des bases théoriques du machine learning
    • Le cours d’Andrew Ng est également célèbre, mais il nécessite une compréhension mathématique de l’algèbre linéaire
    • Pour le deep learning, l’introduction visuelle de 3b1b est utile
  • La stabilité algorithmique fournit une explication plus convaincante que les descendants de la théorie PAC-Bayes ou VC

    • Des ressources connexes sont disponibles dans des articles sur arXiv
  • Si vous voulez comprendre le machine learning, je recommande « The StatQuest Illustrated Guide to Machine Learning » de Josh Starmer

    • C’est un excellent pédagogue qui exprime des idées complexes de manière claire et concise
    • Le format, proche d’un livre pour enfants, le rend facile à lire et à comprendre
    • Je recommande aussi son livre récemment publié sur les réseaux de neurones
  • Les DNN n’ont pas de capacité de généralisation particulière

    • Leur généralisation peut même être plus faible que celle de techniques mathématiquement plus rigoureuses comme les SVM
    • Si l’on entraîne un DNN sur le jeu de données « Wine Quality » du dépôt UCI Machine Learning, on obtient de mauvais résultats et du surapprentissage
    • La « magie » des LLM vient du paradigme d’entraînement
    • On peut utiliser d’énormes modèles avec des jeux de données massifs sans surapprentissage
    • Il y a 10 ans, le principe de « réutilisabilité » n’était pas clairement établi
  • Plutôt que de limiter l’espace des hypothèses pour éviter le surapprentissage, il est important d’accepter un espace d’hypothèses flexible et de privilégier des solutions simples compatibles avec les données

    • Cela soulève la question de savoir comment le deep learning y parvient
    • Par le passé, on utilisait une approche de vraisemblance avec pénalisation
    • J’ai eu l’impression qu’en deep learning, la manière de pénaliser la complexité était plus complexe et moins intuitive
  • Quand j’ai débuté en deep learning, apprendre la preuve du théorème d’approximation universelle m’a énormément aidé

    • Comprendre pourquoi les réseaux de neurones peuvent approximer des fonctions permet de mieux comprendre tout ce qui est construit au-dessus
  • Un exemple intéressant où des réseaux « profonds » sont nécessaires est discuté dans un article récent sur les RNN

    • Les modèles minGRU et minLSTM ne modélisent pas explicitement les dépendances d’état, mais peuvent les apprendre s’ils sont suffisamment profonds
  • Il existe l’idée de collecter des données textuelles et de créer un algorithme prédictif en stockant les distances entre les mots

    • Je me demande à quel point cette méthode se rapproche de GPT-2
  • Je me demande où se situe la frontière de ce qui est défini et réglementé comme de l’« IA »

  • Un neurone artificiel consiste à rendre une régression linéaire non linéaire en y ajoutant une fonction d’activation

    • Lorsqu’on les organise en réseau, cela produit des résultats intéressants