Une théorie scientifique du deep learning va émerger

(arxiv.org)

24 points par GN⁺ 4 일 전 | 1 commentaires | Partager sur WhatsApp

Un article soutient qu’une théorie scientifique est en train de se former pour caractériser les principales propriétés du deep learning, notamment le processus d’apprentissage, les représentations cachées, les poids finaux et les performances
Il présente comme principaux arguments cinq axes de recherche : cadres idéalisés solvables, limites traitables, lois mathématiques simples, théories des hyperparamètres et comportements universels
Cette théorie met l’accent sur la dynamique du processus d’apprentissage, décrit des statistiques agrégées grossières et insiste sur des prédictions quantitatives réfutables
Il propose de nommer ce nouveau cadre théorique centré sur la dynamique de l’apprentissage "learning mechanics"
Des résultats comme les deep linear networks, le NTK, le mean-field et la distinction lazy-rich permettent d’aborder quantitativement la dynamique d’apprentissage, la généralisation, le feature learning et les scaling laws
L’article anticipe une relation symbiotique avec les approches statistiques, information-theoretic et la mechanistic interpretability, tout en esquissant les orientations futures de la théorie du deep learning

Thèse centrale de l’article

Une théorie scientifique (scientific theory) est en train d’émerger pour caractériser les propriétés et statistiques importantes du deep learning, comme le processus d’apprentissage, les représentations cachées, les poids finaux et les performances
En synthétisant les principaux courants actuels de la théorie du deep learning, l’article identifie cinq directions de recherche qui étayent l’existence de cette théorie
- (a) cadres idéalisés solvables (solvable idealized settings) : fournissent une intuition sur la dynamique d’apprentissage de systèmes réalistes
- (b) limites traitables (tractable limits) : révèlent des intuitions sur les phénomènes d’apprentissage fondamentaux
- (c) lois mathématiques simples (simple mathematical laws) : capturent des observables macroscopiques importantes
- (d) théories des hyperparamètres (theories of hyperparameters) : isolent les hyperparamètres du reste du processus d’apprentissage afin de laisser un système plus simple
- (e) comportements universels (universal behaviors) : clarifient quels phénomènes demandent réellement une explication en montrant ce qui est partagé entre systèmes et configurations
L’article estime qu’il est le plus approprié de voir cette théorie émergente comme une dynamique du processus d’apprentissage et propose l’appellation "learning mechanics"
Il discute de la relation avec d’autres approches de construction d’une théorie du deep learning, notamment les perspectives statistiques (statistical) et information-theoretic
Il prédit en particulier une relation symbiotique entre la learning mechanics et la mechanistic interpretability

Introduction

Le deep learning est extrêmement puissant, mais il manque encore un cadre scientifique unifié pour expliquer son fonctionnement interne
- Les réseaux de neurones affichent des performances surhumaines sur de nombreuses tâches, mais il n’existe pas de théorie unifiée expliquant pourquoi ils se comportent ainsi et comment ils atteignent de telles performances
- En pratique, l’entraînement réel repose encore largement sur l’essai-erreur plutôt que sur les first principles, et la théorie joue un rôle limité dans la pratique quotidienne du deep learning
Avec l’ère des grands modèles de langage et des diffusion models, le mystère s’est encore approfondi, mais une théorie scientifique du deep learning commence réellement à prendre forme, sous une forme proche de la mechanics du processus d’apprentissage
Le centre de gravité de la théorie du deep learning a évolué au fil du temps
- Au départ, l’accent portait sur les fonctions que les modèles pouvaient représenter et sur la manière dont ils apprenaient à partir des données
- Il s’est ensuite déplacé vers la question de savoir quand ils généralisent en échantillon fini, avec le développement de la classical learning theory, de la théorie de l’apprentissage computationnel, de la théorie PAC et de la théorie classique de l’optimisation
- En parallèle, s’est aussi constituée la tradition de la statistical physics of machine learning, qui traite du comportement moyen de modèles simples
Les réseaux multicouches, la backpropagation, ainsi que le passage à grande échelle des données et du calcul ont mis en évidence les limites des théories existantes
- Les réseaux de neurones ont une structure non convexe et surparamétrée, différente des modèles simples et convexes que la théorie classique traitait bien
- Ils apprennent des représentations internes structurées au-delà de la simple réduction de l’erreur d’apprentissage, et révèlent des régularités à travers les tâches et les échelles
Ce changement a fait passer la théorie du deep learning d’un stade où l’on demandait mathématiquement ce qui est possible à un stade scientifique où l’on décrit et prévoit le comportement de systèmes empiriques complexes
- Une approche scientifique est donc nécessaire pour intégrer les observations empiriques, rechercher des principes unificateurs et identifier les motifs récurrents
- L’évolution à venir ressemblera davantage à la maturation d’un champ scientifique qu’au simple déploiement d’une branche des mathématiques pures

Qu’est-ce que la learning mechanics ?

L’apprentissage des réseaux de neurones peut être vu comme analogue à la mechanics qui décrit le mouvement d’objets dans l’espace et le temps
- De même qu’un objet se déplace continûment dans l’espace physique sous l’effet de forces, un modèle se déplace dans le parameter space par mises à jour discrètes
- En physique, les forces émergent des interactions entre les composants du système ; en deep learning, l’apprentissage est façonné par les interactions entre paramètres, dataset, tâche et règle d’apprentissage
Il existe aussi une correspondance entre les champs en physique et les gradients en deep learning
- De même qu’un système physique se stabilise dans un minimum local d’un potentiel déterminé par ses interactions internes et ses contraintes externes, un réseau de neurones converge vers un minimum local du loss landscape façonné par l’architecture et les données d’apprentissage
Cette analogie n’est pas qu’une figure rhétorique : elle rejoint aussi les courants de recherche actuels
- Comme différentes branches de la mechanics utilisent des cadres interprétables, des limites simplifiées, des statistiques résumées, l’analyse des paramètres système et des phénomènes universels, la learning mechanics mobilise les mêmes outils
- En particulier, comme la continuum mechanics et la statistical mechanics, qui traitent de nombreux éléments en interaction, il est utile en deep learning d’expliquer des statistiques à un niveau agrégé plutôt que de suivre chaque élément individuellement
Ce programme de recherche peut être rassemblé sous le nom de learning mechanics

Les 7 conditions nécessaires à la learning mechanics

Fondamentalité
- Il faut partir des first principles de l’entraînement des réseaux de neurones et dérouler l’analyse de façon logique
- Des hypothèses sur les poids, la dynamique ou les performances peuvent être utilisées comme outils intermédiaires, mais elles doivent elles aussi être finalement expliquées à partir des first principles
Rigueur mathématique
- Il faut formuler des énoncés quantitatifs sans ambiguïté sur des propriétés importantes des réseaux de neurones
- Une description purement qualitative ne suffit pas à fonder une mechanics
Pouvoir prédictif
- Il faut avancer des affirmations vérifiables par des mesures empiriques simples et reproductibles
- Comme le contrôle expérimental sur ces systèmes est très bon, les avancées majeures doivent pouvoir être clairement testées par l’expérience
Portée globale
- Il faut relier dans un même tableau le processus d’entraînement, les représentations internes et les poids finaux
- Plutôt que de vouloir capturer tous les détails, il faut choisir une résolution appropriée qui sacrifie une partie du détail au profit de l’intuition
Intuitivité
- Il faut privilégier des intuitions simples et éclairantes plutôt qu’une complexité technique excessive
- La théorie doit apporter une forme de satisfaction en dissipant une partie du mystère du deep learning
Utilité
- De même que la physique sert de base à d’autres formes d’ingénierie, elle doit fournir un socle scientifique au deep learning appliqué
- Cela inclut des objectifs concrets comme la réduction du tuning des hyperparamètres, des outils prédictifs pour le dataset design et une base rigoureuse pour l’AI safety
Humilité
- Il faut préciser clairement ce que la théorie explique bien et ce qu’elle n’explique pas
- Une mechanics applicable au deep learning réaliste peut aussi se briser dans des cas petits, particuliers et conçus à la main ; c’est le prix à payer pour obtenir un tableau simple dans la zone d’intérêt

Pourquoi la learning mechanics est importante

Raisons scientifiques
- Le succès d’ingénierie des grands réseaux de neurones suggère qu’ils exploitent encore des principes profonds de l’apprentissage et de la représentation qui restent mal compris
- L’article cite comme précédents des technologies apparues avant leur théorie : la machine à vapeur avant la thermodynamique, et l’avion avant la théorie aérodynamique
- Les principes d’apprentissage des réseaux de neurones artificiels pourraient aussi éclairer la compréhension de la biological intelligence, avec des implications possibles pour les neurosciences et les sciences cognitives
Raisons pratiques
- Une théorie mature du deep learning pourrait guider la conception des modèles, l’optimisation, le scaling et le déploiement selon des principes plus fiables
- La théorie commence déjà à jouer un rôle dans certains domaines
  - empirical scaling laws
  - prescriptions mathématiques pour le scaling des hyperparamètres
  - optimizers et méthodes de data attribution conçus à partir de motivations théoriques
- Une théorie plus profonde et plus complète pourrait fournir davantage de lignes directrices, plus précises et plus prédictives
Raisons liées à la sécurité
- Pour décrire, caractériser et contrôler des systèmes d’IA toujours plus puissants, il faut pouvoir clarifier les variables pertinentes, les mécanismes et les principes d’organisation
- Il est difficile de réguler une technologie qu’on ne peut pas décrire clairement ; une théorie fondamentale peut apporter la clarté nécessaire pour la reliability, l’oversight et le control
- L’article souligne notamment la possibilité de contribuer à l’AI safety d’une manière qui soutient la mechanistic interpretability

Indices de l’émergence d’une mechanics de l’apprentissage

Les composants essentiels du deep learning sont explicites et mesurables
- L’architecture est donnée par un réseau de neurones f(x; θ) défini comme composition de transformations linéaires et non linéaires simples
- Les données sont données par un ensemble d’échantillons D = {(xi, yi)} issus d’une distribution génératrice de données inconnue
- La tâche est définie par une fonction objectif L(θ) qui mesure la performance sur le dataset
- La règle d’apprentissage est décrite par des mises à jour fondées sur le gradient comme θ(t+1) = θ(t) −η∇L(θ(t)), ainsi que par l’initialisation et les hyperparamètres d’optimisation
Il y a très peu d’éléments cachés pendant l’apprentissage
- À la différence de nombreux systèmes complexes, le deep learning expose directement les equations of motion qui gouvernent sa dynamique
- On peut enregistrer tous les weights, activations, gradients et pertes, puis construire à partir d’eux n’importe quelle statistique
- La conception expérimentale, la reproduction et la validation sont faciles, ce qui favorise la découverte de régularités empiriques et le test rigoureux des prédictions théoriques
La difficulté centrale n’est pas l’opacité, mais la complexité
- L’interaction entre architecture, données, tâche et règle d’apprentissage produit une dynamique d’apprentissage non linéaire, combinatoire et de grande dimension
- Elle est sensible au choix des hyperparamètres, et la distribution des données elle-même est difficile à caractériser simplement
Pourtant, des régularités se cachent sous cette complexité, et l’article avance cinq observations à l’appui
- (a) cadres idéalisés solvables (solvable idealized settings)
- (b) limites traitables (tractable limits)
- (c) lois mathématiques simples (simple mathematical laws)
- (d) théories des hyperparamètres (theories of hyperparameters)
- (e) comportements universels (universal behaviors)

=== contenu de l’article omis ===

Des ressources d’introduction, perspectives supplémentaires et questions ouvertes sont disponibles sur learningmechanics.pub
L’article fait 41 pages

1 commentaires

GN⁺ 4 일 전

Avis Hacker News

En tant que personne qui travaille dans ce domaine, je trouve que cet article résume assez bien les sujets de recherche les plus discutés en ce moment
Surtout, les open problems à la fin couvrent en pratique presque toutes les orientations clés de la recherche, donc c’était la partie la plus utile
Voir autant de scepticisme dans les commentaires est un peu regrettable, car cela montre à quel point ce type de recherche parvient peu jusqu’au grand public
Il n’existe pas encore beaucoup de mécanismes permettant de dériver mathématiquement directement la conception optimale d’un réseau, mais c’est souvent parce que l’expérimentation va plus vite que la théorie et qu’on finit par expliquer les choses a posteriori
Malgré tout, on se rapproche désormais de réponses assez solides à la question de savoir pourquoi les réseaux neuronaux fonctionnent mieux que d’autres modèles
Le problème, c’est que ce n’était pas vraiment la question que les gens se posaient le plus, et on semble donc être arrivé à l’étape où il faut décider quelle sera la prochaine question à poser
- Je pense qu’on est actuellement dans une période étrange où les fondements informationnels du deep learning se consolident rapidement
  La question de savoir pourquoi cela fonctionne est globalement résolue, et l’essentiel consiste à minimiser efficacement la perte d’information irréversible par rapport au noise floor
  Les mathématiques pointent vers des voies plus efficaces, mais l’industrie gaspille depuis des années ses efforts à pousser des modèles toujours plus gros
  Même un modèle 70B bien conçu pourrait tourner autour de 16GB sans perte de capacité tout en continuant à apprendre, mais les financements ont continué à se concentrer uniquement sur le bigger
  Aujourd’hui, l’industrie a déplacé son objectif vers l’Agency et la Long-horizon Persistence, et la transition d’une calculatrice prédictive vers un système durable ressemble davantage à un problème de thermodynamique hors équilibre
  Il existe ici des mathématiques et des lois qui s’appliquent aussi telles quelles à l’IA, et les principes qui permettent à un signal de persister dans un modèle et à un agent de persister relèvent en fait quasiment des mêmes mathématiques
  C’est précisément mon domaine de spécialité, cette persistance, et voir le monde de l’IA réapprendre péniblement des principes de base déjà acquis ailleurs peut être franchement frustrant
  C’est pourquoi j’écris et je partage des documents expliquant comment fonctionnent ces mathématiques et comment les appliquer à chaque domaine, parce qu’après les avoir lus, on sait précisément quoi améliorer pour accroître la persistance au lieu d’y aller à l’intuition
  Des questions comme « combien d’heures peut-on faire travailler un modèle » paraissent presque mignonnes, tant il existe des questions plus fondamentales
- Si c’est vrai, ce serait vraiment une excellente nouvelle
  D’un point de vue classique, les effets de la surparamétrisation ou d’autres architectures neuronales restent franchement difficiles à accepter intuitivement
  Je reconnais que la double descent fonctionne empiriquement, mais j’ai malgré tout l’impression que cela ne devrait pas être le cas
  En tant que lecteur appréciant Elements de Hastie et al., rien qu’avec le bias-variance tradeoff, ces résultats paraissent difficiles à faire émerger
  C’est un point qui me tracasse depuis des années, donc s’il y a des avancées là-dessus, ce serait extrêmement utile, ne serait-ce qu’au niveau philosophique
  Je n’ai lu que l’introduction pour l’instant, mais le texte est bien écrit, et c’est un programme de recherche que j’aurais volontiers envie de soutenir
  Cela ressemble un peu au cas du bagging ou du boosting, qui avaient d’abord réussi empiriquement avant d’avoir une théorie
- Je suis toujours surpris du nombre de gens qui, face à la recherche visant à comprendre les réseaux neuronaux, affirment d’emblée que c’est une black box et donc que toute compréhension est impossible
  Cela vient sans doute en grande partie du fait que les réseaux neuronaux ont été décrits comme l’opposé de la linear regression, qui elle est interprétable de manière classique
  Comme l’ingénierie va très vite, il existe aussi une forte tendance à ne pas laisser le temps à la recherche si elle ne produit pas de résultats immédiatement visibles
  Même chez les chercheurs en interprétabilité, beaucoup semblent abandonner trop vite quand les résultats marquants n’arrivent pas tout de suite
- La question de pourquoi les réseaux neuronaux fonctionnent mieux que d’autres modèles est intéressante
  Si quelqu’un a des ressources de référence accessibles aux non-spécialistes, je suis preneur
- Je ne suis pas certain qu’on puisse affirmer que les réseaux neuronaux sont vraiment meilleurs que les autres modèles
  Il est vrai qu’ils couvrent une gamme bien plus large de problèmes, comme les images, où le ML traditionnel est en difficulté, mais là où une comparaison équitable est possible, il me semble que le gradient boosting peut souvent faire mieux
Ce que je ne comprends pas, c’est ceci
Les idées de réseaux neuronaux existent depuis des décennies et ont longtemps suscité peu d’intérêt, puis après Attention Is All You Need en 2017, le deep learning a explosé
Je comprends que les GPU accélèrent le deep learning, mais j’ai l’impression que le concept même de transformer aurait pu être essayé plus tôt sur un matériel bien plus lent
- Le véritable point d’inflexion a été AlexNet en 2012
  Comme le montre https://en.wikipedia.org/wiki/AlexNet, AlexNet a apporté à la compétition de classification ImageNet un bond de performance sans commune mesure avec ce qui précédait, et après cela, tous les grands laboratoires de recherche en vision par ML sont passés aux deep CNN
  En quelques années, les autres approches ont quasiment disparu des compétitions d’images SOTA, et les réseaux neuronaux profonds ont ensuite conquis les autres domaines du ML
  L’explication classique tient en fait à la combinaison de deux choses
  La première est une puissance de calcul incomparablement plus élevée qu’auparavant, la seconde des jeux de données bien plus vastes et de haute qualité, nettoyés et annotés à la main, comme ImageNet
  L’attention a été particulièrement utile pour apprendre des relations complexes dans des séquences à structure d’ordre relativement libre, comme le texte, mais aujourd’hui beaucoup considèrent l’architecture moins comme l’essence même de l’apprentissage que comme une option de tradeoff quand les données et le compute manquent
  Au final, comme dans https://en.wikipedia.org/wiki/Bitter_lesson, plus de compute et plus de données finissent souvent par battre des modèles supposés plus intelligents mais qui passent mal à l’échelle
  L’humain possède environ 10^11 neurones, le chien 10^9, la souris 10^7, et ce qui frappe ici, c’est que ce sont tous des nombres énormes
  Même une intelligence limitée comme celle d’une souris nécessite des centaines de millions de neurones, et l’intelligence semble n’apparaître qu’au-delà d’un certain seuil de capacité de calcul
  C’est probablement parce qu’il faut beaucoup de paramètres pour traiter la complexité intrinsèque d’environnements d’apprentissage complexes
  En revanche, pour des problèmes simples ou très structurés, il existe de nombreuses méthodes qui fonctionnent très bien avec peu de paramètres, voire dont l’optimalité a été démontrée
  Quand on parle d’apprentissage et d’intelligence, on suppose généralement des environnements complexes, et cette complexité exige intrinsèquement un grand nombre de paramètres
- La grande victoire plus ancienne du deep learning a en réalité été AlexNet en 2012 pour la reconnaissance d’images
  Il a écrasé la compétition, et en quelques années cette approche est devenue de fait le standard pour les tâches d’image
  Il me semble que c’était Jeremy Howard qui, vers 2017, avait écrit un texte demandant quand on verrait en NLP un transfer learning aussi efficace que ce que les convnets avaient accompli pour l’image
  L’article sur l’attention n’a pas dominé le monde immédiatement cette année-là, et à l’époque le matériel manquait encore, sans consensus non plus sur l’idée que l’échelle résolvait tout
  Il a fallu presque cinq années de plus avant l’arrivée de GPT-3, et ce n’est qu’alors que la vague actuelle a commencé
  On sous-estime aussi très souvent l’ampleur du compute nécessaire pour entraîner ces monstres, alors qu’avec un seul processeur à 1GHz il faudrait environ 100 millions d’années pour entraîner un modèle de cette catégorie
  Même un modèle de niveau GPT-3 demande environ 25 000 GPU pendant plusieurs mois, et avec la mémoire ridicule des GPU d’il y a 10 ans, l’entraînement de grands transformers était en pratique impossible
  Les anciens k80 avaient autour de 12GB, alors que les H100/H200 actuels montent à plusieurs centaines de GB, et il faut donc admettre que les grands transformers n’étaient tout simplement pas réalisables avant le début des années 2020
  Cela me rappelle aussi les plaintes des gamers de la fin des années 2010 contre l’explosion du prix des GPU à cause du ML
- Comme d’autres l’ont dit, l’explosion de l’intérêt a commencé quand les deep convolutional networks se sont montrés efficaces sur les problèmes d’image
  Ce qui est intéressant, c’est qu’avant cela les réseaux neuronaux étaient souvent traités comme quelque chose de peu important
  Quand je suivais des cours sur le sujet autour de l’an 2000, l’ambiance générale allait d’ailleurs dans ce sens
  Pour que l’intérêt reparte, il a finalement fallu à la fois des quantités énormes de données d’entraînement comme ImageNet et des processeurs rapides
  Ensuite, les progrès successifs sur des architectures particulières ont continué et l’effet boule de neige s’est enclenché
  Dans la communauté élargie, AlexNet apparaît comme le grand tournant, mais dans le milieu académique le climat avait commencé à changer deux ou trois ans plus tôt
  J’ai commencé à remarquer vers 2008-09 que les présentations sur les réseaux neuronaux n’étaient plus automatiquement ignorées dans les workshops
- Il s’est passé quelque chose de similaire avec les matrices
  Les matrices existent depuis 400 ans, mais l’algèbre linéaire, surtout l’algèbre linéaire numérique, n’a explosé qu’avec l’arrivée des ordinateurs
  Autrefois, la méthode standard pour résoudre des systèmes d’équations reposait sur la théorie des mineurs, mais avec les ordinateurs, des approches comme l’élimination de Gauss ou les espaces de Krylov se sont fortement développées
- Le concept de transformer aurait sans doute pu être utilisé plus tôt sur du matériel plus lent, mais à petite échelle on n’obtient pas les mêmes résultats
  Les gens l’avaient peut-être imaginé, mais ils n’avaient pas le matériel pour l’implémenter réellement
  En simplifiant, les LLM ne sont au fond que des transformers auxquels on a ajouté une quantité gigantesque de données, et pour rendre l’apprentissage possible à cette échelle, un matériel suffisamment puissant était indispensable
Il est intéressant qu’un outil d’apprentissage, le cerveau, cherche à comprendre un autre outil d’apprentissage
Le SGD fonctionne déjà suffisamment bien, et le rendre plusieurs fois meilleur ne résoudra peut-être pas la question fondamentale de ce que fait réellement cette black box
La manière dont on apprend et ce que fait réellement le modèle sont deux questions différentes, d’autant que notre cerveau lui-même est aussi une black box à bien des égards
J’ai donc eu l’impression qu’il fallait davantage de liens entre la recherche sur les mécanismes d’apprentissage, la psychologie, et les idées philosophiques sur la nature de la pensée et du langage
C’est encourageant, mais je trouve le titre un peu exagéré
Quelque chose comme des angles d’attaque pour comprendre ce que fait réellement le deep learning aurait été plus juste, mais sans doute moins accrocheur
Si cela pouvait déboucher sur une manière de mesurer quand les systèmes de deep learning produisent des hallucinations, ce serait d’une valeur énorme
Tant que ce n’est pas possible, on ne pourra utiliser les systèmes de deep learning que de façon limitée, pour des tâches où les dégâts causés par des sorties absurdes restent faibles
- Ce qui freine fortement le domaine, à mon avis, c’est l’espoir mnémonique et l’anthropomorphisation appliqués aux LLM
  Par exemple, le mot hallucination lui-même force une signification humaine sur la sortie d’un LLM
  Si l’on regarde leur fonctionnement mathématique réel, une hallucination n’est qu’une sortie parmi d’autres, sans frontière clairement définie entre elle et les autres sorties
- Mesurer le moment où les systèmes de deep learning commencent à halluciner est vraiment un problème qui mérite d’être résolu
  C’est d’ailleurs aussi ma principale direction de recherche, donc je peux être biaisé
  L’approche la plus courante est la détection OOD, mais j’ai toujours trouvé que la formulation même du problème y était instable
  Avec des collègues, nous essayons donc une approche plus fondamentale basée sur la mesure de la misspecification du modèle, mais le coût de calcul est tellement élevé que cela reste encore un sujet de niche
  Quelle que soit la direction, il faudra probablement encore du temps avant une véritable percée
Cela me fait penser à quel point c’est conceptuellement proche du vibecoding
On commence par faire en sorte que quelque chose fonctionne, et comprendre ensuite pourquoi et comment cela marche est un travail totalement distinct
Attendez, on a donc construit quelque chose qu’on ne comprend toujours pas vraiment et qu’on ne sait pas correctement expliquer, et maintenant on appelle ça de la science ?
Depuis des décennies, on emprunte le vocabulaire de la biologie, notamment de la neurobiologie, et au final on a un peu l’impression d’un copy paste imitant les singes
Pour être honnête, j’ai trouvé ces deux tentatives de théorie générale encore plus intéressantes
https://arxiv.org/abs/2510.12269
https://www.mdpi.com/1099-4300/28/3/332
Je suis aussi curieux du lien avec la fuzzy logic
Les réseaux neuronaux donnent l’impression de raisonner de manière floue, mais je ne sais pas très bien comment il faudrait formaliser cela
Pendant des années, il y a eu des tentatives de formalisation du fuzzy reasoning, mais on dirait qu’aujourd’hui plus personne ne s’y intéresse
J’ai l’impression que les réseaux neuronaux et les transformers sont un peu les OOP du ML
C’est extrêmement populaire et assez efficace en pratique, mais les fondements restent opaques, avec l’impression de réexprimer dans un nouveau langage quelque chose qui était déjà exprimable auparavant, sans pouvoir identifier précisément d’où vient le gain
Je n’ai pas encore lu tout l’article, mais je l’ai trouvé vraiment captivant et assez réfléchi
Il y a énormément à digérer, mais voir tout cela rassemblé en un seul endroit est vraiment fascinant
Si le deep learning fonctionne bien à haut niveau, c’est au fond parce qu’il est meilleur que les autres approches pour continuer à apprendre à partir de plus de données
Mais sans les volumes de données gigantesques disponibles aujourd’hui, l’architecture n’aurait sans doute pas eu une telle importance
Tant qu’on n’explique pas ensemble les deux côtés de l’équation modèle-données, il est difficile de construire une théorie scientifique solide sur des questions comme pourquoi les modèles de reasoning raisonnent
Un modèle est le produit conjoint de son architecture et de ses données d’entraînement
Pour l’instant, ce problème paraît presque aussi insaisissable que celui d’expliquer comment les humains ou les animaux apprennent certaines choses à partir d’une masse immense de données d’entrée
La compréhension empirique va sans doute s’améliorer, mais le fond du sujet ne se réduira peut-être pas de nouveau à l’informatique théorique
À mon avis, le cœur de la vraie complexité est moins dans l’architecture que dans les gigadatasets
La théorie devient décisivement importante au moment où il faut prédire les modes d’échec
Un système d’aide à la décision qui fonctionne à peu près la plupart du temps mais échoue silencieusement dans les cas limites est plus dangereux qu’un système plus simple dont les limites sont clairement connues
Comprendre les mécanismes de biais aide à distinguer les moments où le modèle est réellement sûr de lui de ceux où il fait simplement du pattern matching
Cette différence est particulièrement importante dans les environnements à forts enjeux

Une théorie scientifique du deep learning va émerger

Thèse centrale de l’article

Introduction

Qu’est-ce que la learning mechanics ?

Les 7 conditions nécessaires à la learning mechanics

Fondamentalité

Rigueur mathématique

Pouvoir prédictif

Portée globale

Intuitivité

Utilité

Humilité

Pourquoi la learning mechanics est importante

Raisons scientifiques

Raisons pratiques

Raisons liées à la sécurité

Indices de l’émergence d’une mechanics de l’apprentissage

À lire aussi

1 commentaires

Avis Hacker News