- Un article soutient qu’une théorie scientifique est en train de se former pour caractériser les principales propriétés du deep learning, notamment le processus d’apprentissage, les représentations cachées, les poids finaux et les performances
- Il présente comme principaux arguments cinq axes de recherche : cadres idéalisés solvables, limites traitables, lois mathématiques simples, théories des hyperparamètres et comportements universels
- Cette théorie met l’accent sur la dynamique du processus d’apprentissage, décrit des statistiques agrégées grossières et insiste sur des prédictions quantitatives réfutables
- Il propose de nommer ce nouveau cadre théorique centré sur la dynamique de l’apprentissage "learning mechanics"
- Des résultats comme les deep linear networks, le NTK, le mean-field et la distinction lazy-rich permettent d’aborder quantitativement la dynamique d’apprentissage, la généralisation, le feature learning et les scaling laws
- L’article anticipe une relation symbiotique avec les approches statistiques, information-theoretic et la mechanistic interpretability, tout en esquissant les orientations futures de la théorie du deep learning
Thèse centrale de l’article
- Une théorie scientifique (scientific theory) est en train d’émerger pour caractériser les propriétés et statistiques importantes du deep learning, comme le processus d’apprentissage, les représentations cachées, les poids finaux et les performances
- En synthétisant les principaux courants actuels de la théorie du deep learning, l’article identifie cinq directions de recherche qui étayent l’existence de cette théorie
- (a) cadres idéalisés solvables (solvable idealized settings) : fournissent une intuition sur la dynamique d’apprentissage de systèmes réalistes
- (b) limites traitables (tractable limits) : révèlent des intuitions sur les phénomènes d’apprentissage fondamentaux
- (c) lois mathématiques simples (simple mathematical laws) : capturent des observables macroscopiques importantes
- (d) théories des hyperparamètres (theories of hyperparameters) : isolent les hyperparamètres du reste du processus d’apprentissage afin de laisser un système plus simple
- (e) comportements universels (universal behaviors) : clarifient quels phénomènes demandent réellement une explication en montrant ce qui est partagé entre systèmes et configurations
- L’article estime qu’il est le plus approprié de voir cette théorie émergente comme une dynamique du processus d’apprentissage et propose l’appellation "learning mechanics"
- Il discute de la relation avec d’autres approches de construction d’une théorie du deep learning, notamment les perspectives statistiques (statistical) et information-theoretic
- Il prédit en particulier une relation symbiotique entre la learning mechanics et la mechanistic interpretability
Introduction
- Le deep learning est extrêmement puissant, mais il manque encore un cadre scientifique unifié pour expliquer son fonctionnement interne
- Les réseaux de neurones affichent des performances surhumaines sur de nombreuses tâches, mais il n’existe pas de théorie unifiée expliquant pourquoi ils se comportent ainsi et comment ils atteignent de telles performances
- En pratique, l’entraînement réel repose encore largement sur l’essai-erreur plutôt que sur les first principles, et la théorie joue un rôle limité dans la pratique quotidienne du deep learning
- Avec l’ère des grands modèles de langage et des diffusion models, le mystère s’est encore approfondi, mais une théorie scientifique du deep learning commence réellement à prendre forme, sous une forme proche de la mechanics du processus d’apprentissage
- Le centre de gravité de la théorie du deep learning a évolué au fil du temps
- Au départ, l’accent portait sur les fonctions que les modèles pouvaient représenter et sur la manière dont ils apprenaient à partir des données
- Il s’est ensuite déplacé vers la question de savoir quand ils généralisent en échantillon fini, avec le développement de la classical learning theory, de la théorie de l’apprentissage computationnel, de la théorie PAC et de la théorie classique de l’optimisation
- En parallèle, s’est aussi constituée la tradition de la statistical physics of machine learning, qui traite du comportement moyen de modèles simples
- Les réseaux multicouches, la backpropagation, ainsi que le passage à grande échelle des données et du calcul ont mis en évidence les limites des théories existantes
- Les réseaux de neurones ont une structure non convexe et surparamétrée, différente des modèles simples et convexes que la théorie classique traitait bien
- Ils apprennent des représentations internes structurées au-delà de la simple réduction de l’erreur d’apprentissage, et révèlent des régularités à travers les tâches et les échelles
- Ce changement a fait passer la théorie du deep learning d’un stade où l’on demandait mathématiquement ce qui est possible à un stade scientifique où l’on décrit et prévoit le comportement de systèmes empiriques complexes
- Une approche scientifique est donc nécessaire pour intégrer les observations empiriques, rechercher des principes unificateurs et identifier les motifs récurrents
- L’évolution à venir ressemblera davantage à la maturation d’un champ scientifique qu’au simple déploiement d’une branche des mathématiques pures
Qu’est-ce que la learning mechanics ?
- L’apprentissage des réseaux de neurones peut être vu comme analogue à la mechanics qui décrit le mouvement d’objets dans l’espace et le temps
- De même qu’un objet se déplace continûment dans l’espace physique sous l’effet de forces, un modèle se déplace dans le parameter space par mises à jour discrètes
- En physique, les forces émergent des interactions entre les composants du système ; en deep learning, l’apprentissage est façonné par les interactions entre paramètres, dataset, tâche et règle d’apprentissage
- Il existe aussi une correspondance entre les champs en physique et les gradients en deep learning
- De même qu’un système physique se stabilise dans un minimum local d’un potentiel déterminé par ses interactions internes et ses contraintes externes, un réseau de neurones converge vers un minimum local du loss landscape façonné par l’architecture et les données d’apprentissage
- Cette analogie n’est pas qu’une figure rhétorique : elle rejoint aussi les courants de recherche actuels
- Comme différentes branches de la mechanics utilisent des cadres interprétables, des limites simplifiées, des statistiques résumées, l’analyse des paramètres système et des phénomènes universels, la learning mechanics mobilise les mêmes outils
- En particulier, comme la continuum mechanics et la statistical mechanics, qui traitent de nombreux éléments en interaction, il est utile en deep learning d’expliquer des statistiques à un niveau agrégé plutôt que de suivre chaque élément individuellement
- Ce programme de recherche peut être rassemblé sous le nom de learning mechanics
Les 7 conditions nécessaires à la learning mechanics
-
Fondamentalité
- Il faut partir des first principles de l’entraînement des réseaux de neurones et dérouler l’analyse de façon logique
- Des hypothèses sur les poids, la dynamique ou les performances peuvent être utilisées comme outils intermédiaires, mais elles doivent elles aussi être finalement expliquées à partir des first principles
-
Rigueur mathématique
- Il faut formuler des énoncés quantitatifs sans ambiguïté sur des propriétés importantes des réseaux de neurones
- Une description purement qualitative ne suffit pas à fonder une mechanics
-
Pouvoir prédictif
- Il faut avancer des affirmations vérifiables par des mesures empiriques simples et reproductibles
- Comme le contrôle expérimental sur ces systèmes est très bon, les avancées majeures doivent pouvoir être clairement testées par l’expérience
-
Portée globale
- Il faut relier dans un même tableau le processus d’entraînement, les représentations internes et les poids finaux
- Plutôt que de vouloir capturer tous les détails, il faut choisir une résolution appropriée qui sacrifie une partie du détail au profit de l’intuition
-
Intuitivité
- Il faut privilégier des intuitions simples et éclairantes plutôt qu’une complexité technique excessive
- La théorie doit apporter une forme de satisfaction en dissipant une partie du mystère du deep learning
-
Utilité
- De même que la physique sert de base à d’autres formes d’ingénierie, elle doit fournir un socle scientifique au deep learning appliqué
- Cela inclut des objectifs concrets comme la réduction du tuning des hyperparamètres, des outils prédictifs pour le dataset design et une base rigoureuse pour l’AI safety
-
Humilité
- Il faut préciser clairement ce que la théorie explique bien et ce qu’elle n’explique pas
- Une mechanics applicable au deep learning réaliste peut aussi se briser dans des cas petits, particuliers et conçus à la main ; c’est le prix à payer pour obtenir un tableau simple dans la zone d’intérêt
Pourquoi la learning mechanics est importante
-
Raisons scientifiques
- Le succès d’ingénierie des grands réseaux de neurones suggère qu’ils exploitent encore des principes profonds de l’apprentissage et de la représentation qui restent mal compris
- L’article cite comme précédents des technologies apparues avant leur théorie : la machine à vapeur avant la thermodynamique, et l’avion avant la théorie aérodynamique
- Les principes d’apprentissage des réseaux de neurones artificiels pourraient aussi éclairer la compréhension de la biological intelligence, avec des implications possibles pour les neurosciences et les sciences cognitives
-
Raisons pratiques
- Une théorie mature du deep learning pourrait guider la conception des modèles, l’optimisation, le scaling et le déploiement selon des principes plus fiables
- La théorie commence déjà à jouer un rôle dans certains domaines
- empirical scaling laws
- prescriptions mathématiques pour le scaling des hyperparamètres
- optimizers et méthodes de data attribution conçus à partir de motivations théoriques
- Une théorie plus profonde et plus complète pourrait fournir davantage de lignes directrices, plus précises et plus prédictives
-
Raisons liées à la sécurité
- Pour décrire, caractériser et contrôler des systèmes d’IA toujours plus puissants, il faut pouvoir clarifier les variables pertinentes, les mécanismes et les principes d’organisation
- Il est difficile de réguler une technologie qu’on ne peut pas décrire clairement ; une théorie fondamentale peut apporter la clarté nécessaire pour la reliability, l’oversight et le control
- L’article souligne notamment la possibilité de contribuer à l’AI safety d’une manière qui soutient la mechanistic interpretability
Indices de l’émergence d’une mechanics de l’apprentissage
- Les composants essentiels du deep learning sont explicites et mesurables
- L’architecture est donnée par un réseau de neurones f(x; θ) défini comme composition de transformations linéaires et non linéaires simples
- Les données sont données par un ensemble d’échantillons D = {(xi, yi)} issus d’une distribution génératrice de données inconnue
- La tâche est définie par une fonction objectif L(θ) qui mesure la performance sur le dataset
- La règle d’apprentissage est décrite par des mises à jour fondées sur le gradient comme
θ(t+1) = θ(t) −η∇L(θ(t)), ainsi que par l’initialisation et les hyperparamètres d’optimisation
- Il y a très peu d’éléments cachés pendant l’apprentissage
- À la différence de nombreux systèmes complexes, le deep learning expose directement les equations of motion qui gouvernent sa dynamique
- On peut enregistrer tous les weights, activations, gradients et pertes, puis construire à partir d’eux n’importe quelle statistique
- La conception expérimentale, la reproduction et la validation sont faciles, ce qui favorise la découverte de régularités empiriques et le test rigoureux des prédictions théoriques
- La difficulté centrale n’est pas l’opacité, mais la complexité
- L’interaction entre architecture, données, tâche et règle d’apprentissage produit une dynamique d’apprentissage non linéaire, combinatoire et de grande dimension
- Elle est sensible au choix des hyperparamètres, et la distribution des données elle-même est difficile à caractériser simplement
- Pourtant, des régularités se cachent sous cette complexité, et l’article avance cinq observations à l’appui
- (a) cadres idéalisés solvables (solvable idealized settings)
- (b) limites traitables (tractable limits)
- (c) lois mathématiques simples (simple mathematical laws)
- (d) théories des hyperparamètres (theories of hyperparameters)
- (e) comportements universels (universal behaviors)
=== contenu de l’article omis ===
- Des ressources d’introduction, perspectives supplémentaires et questions ouvertes sont disponibles sur learningmechanics.pub
- L’article fait 41 pages
1 commentaires
Avis Hacker News
En tant que personne qui travaille dans ce domaine, je trouve que cet article résume assez bien les sujets de recherche les plus discutés en ce moment
Surtout, les open problems à la fin couvrent en pratique presque toutes les orientations clés de la recherche, donc c’était la partie la plus utile
Voir autant de scepticisme dans les commentaires est un peu regrettable, car cela montre à quel point ce type de recherche parvient peu jusqu’au grand public
Il n’existe pas encore beaucoup de mécanismes permettant de dériver mathématiquement directement la conception optimale d’un réseau, mais c’est souvent parce que l’expérimentation va plus vite que la théorie et qu’on finit par expliquer les choses a posteriori
Malgré tout, on se rapproche désormais de réponses assez solides à la question de savoir pourquoi les réseaux neuronaux fonctionnent mieux que d’autres modèles
Le problème, c’est que ce n’était pas vraiment la question que les gens se posaient le plus, et on semble donc être arrivé à l’étape où il faut décider quelle sera la prochaine question à poser
La question de savoir pourquoi cela fonctionne est globalement résolue, et l’essentiel consiste à minimiser efficacement la perte d’information irréversible par rapport au noise floor
Les mathématiques pointent vers des voies plus efficaces, mais l’industrie gaspille depuis des années ses efforts à pousser des modèles toujours plus gros
Même un modèle 70B bien conçu pourrait tourner autour de 16GB sans perte de capacité tout en continuant à apprendre, mais les financements ont continué à se concentrer uniquement sur le bigger
Aujourd’hui, l’industrie a déplacé son objectif vers l’Agency et la Long-horizon Persistence, et la transition d’une calculatrice prédictive vers un système durable ressemble davantage à un problème de thermodynamique hors équilibre
Il existe ici des mathématiques et des lois qui s’appliquent aussi telles quelles à l’IA, et les principes qui permettent à un signal de persister dans un modèle et à un agent de persister relèvent en fait quasiment des mêmes mathématiques
C’est précisément mon domaine de spécialité, cette persistance, et voir le monde de l’IA réapprendre péniblement des principes de base déjà acquis ailleurs peut être franchement frustrant
C’est pourquoi j’écris et je partage des documents expliquant comment fonctionnent ces mathématiques et comment les appliquer à chaque domaine, parce qu’après les avoir lus, on sait précisément quoi améliorer pour accroître la persistance au lieu d’y aller à l’intuition
Des questions comme « combien d’heures peut-on faire travailler un modèle » paraissent presque mignonnes, tant il existe des questions plus fondamentales
D’un point de vue classique, les effets de la surparamétrisation ou d’autres architectures neuronales restent franchement difficiles à accepter intuitivement
Je reconnais que la double descent fonctionne empiriquement, mais j’ai malgré tout l’impression que cela ne devrait pas être le cas
En tant que lecteur appréciant Elements de Hastie et al., rien qu’avec le bias-variance tradeoff, ces résultats paraissent difficiles à faire émerger
C’est un point qui me tracasse depuis des années, donc s’il y a des avancées là-dessus, ce serait extrêmement utile, ne serait-ce qu’au niveau philosophique
Je n’ai lu que l’introduction pour l’instant, mais le texte est bien écrit, et c’est un programme de recherche que j’aurais volontiers envie de soutenir
Cela ressemble un peu au cas du bagging ou du boosting, qui avaient d’abord réussi empiriquement avant d’avoir une théorie
Cela vient sans doute en grande partie du fait que les réseaux neuronaux ont été décrits comme l’opposé de la linear regression, qui elle est interprétable de manière classique
Comme l’ingénierie va très vite, il existe aussi une forte tendance à ne pas laisser le temps à la recherche si elle ne produit pas de résultats immédiatement visibles
Même chez les chercheurs en interprétabilité, beaucoup semblent abandonner trop vite quand les résultats marquants n’arrivent pas tout de suite
Si quelqu’un a des ressources de référence accessibles aux non-spécialistes, je suis preneur
Il est vrai qu’ils couvrent une gamme bien plus large de problèmes, comme les images, où le ML traditionnel est en difficulté, mais là où une comparaison équitable est possible, il me semble que le gradient boosting peut souvent faire mieux
Ce que je ne comprends pas, c’est ceci
Les idées de réseaux neuronaux existent depuis des décennies et ont longtemps suscité peu d’intérêt, puis après Attention Is All You Need en 2017, le deep learning a explosé
Je comprends que les GPU accélèrent le deep learning, mais j’ai l’impression que le concept même de transformer aurait pu être essayé plus tôt sur un matériel bien plus lent
Comme le montre https://en.wikipedia.org/wiki/AlexNet, AlexNet a apporté à la compétition de classification ImageNet un bond de performance sans commune mesure avec ce qui précédait, et après cela, tous les grands laboratoires de recherche en vision par ML sont passés aux deep CNN
En quelques années, les autres approches ont quasiment disparu des compétitions d’images SOTA, et les réseaux neuronaux profonds ont ensuite conquis les autres domaines du ML
L’explication classique tient en fait à la combinaison de deux choses
La première est une puissance de calcul incomparablement plus élevée qu’auparavant, la seconde des jeux de données bien plus vastes et de haute qualité, nettoyés et annotés à la main, comme ImageNet
L’attention a été particulièrement utile pour apprendre des relations complexes dans des séquences à structure d’ordre relativement libre, comme le texte, mais aujourd’hui beaucoup considèrent l’architecture moins comme l’essence même de l’apprentissage que comme une option de tradeoff quand les données et le compute manquent
Au final, comme dans https://en.wikipedia.org/wiki/Bitter_lesson, plus de compute et plus de données finissent souvent par battre des modèles supposés plus intelligents mais qui passent mal à l’échelle
L’humain possède environ 10^11 neurones, le chien 10^9, la souris 10^7, et ce qui frappe ici, c’est que ce sont tous des nombres énormes
Même une intelligence limitée comme celle d’une souris nécessite des centaines de millions de neurones, et l’intelligence semble n’apparaître qu’au-delà d’un certain seuil de capacité de calcul
C’est probablement parce qu’il faut beaucoup de paramètres pour traiter la complexité intrinsèque d’environnements d’apprentissage complexes
En revanche, pour des problèmes simples ou très structurés, il existe de nombreuses méthodes qui fonctionnent très bien avec peu de paramètres, voire dont l’optimalité a été démontrée
Quand on parle d’apprentissage et d’intelligence, on suppose généralement des environnements complexes, et cette complexité exige intrinsèquement un grand nombre de paramètres
Il a écrasé la compétition, et en quelques années cette approche est devenue de fait le standard pour les tâches d’image
Il me semble que c’était Jeremy Howard qui, vers 2017, avait écrit un texte demandant quand on verrait en NLP un transfer learning aussi efficace que ce que les convnets avaient accompli pour l’image
L’article sur l’attention n’a pas dominé le monde immédiatement cette année-là, et à l’époque le matériel manquait encore, sans consensus non plus sur l’idée que l’échelle résolvait tout
Il a fallu presque cinq années de plus avant l’arrivée de GPT-3, et ce n’est qu’alors que la vague actuelle a commencé
On sous-estime aussi très souvent l’ampleur du compute nécessaire pour entraîner ces monstres, alors qu’avec un seul processeur à 1GHz il faudrait environ 100 millions d’années pour entraîner un modèle de cette catégorie
Même un modèle de niveau GPT-3 demande environ 25 000 GPU pendant plusieurs mois, et avec la mémoire ridicule des GPU d’il y a 10 ans, l’entraînement de grands transformers était en pratique impossible
Les anciens k80 avaient autour de 12GB, alors que les H100/H200 actuels montent à plusieurs centaines de GB, et il faut donc admettre que les grands transformers n’étaient tout simplement pas réalisables avant le début des années 2020
Cela me rappelle aussi les plaintes des gamers de la fin des années 2010 contre l’explosion du prix des GPU à cause du ML
Ce qui est intéressant, c’est qu’avant cela les réseaux neuronaux étaient souvent traités comme quelque chose de peu important
Quand je suivais des cours sur le sujet autour de l’an 2000, l’ambiance générale allait d’ailleurs dans ce sens
Pour que l’intérêt reparte, il a finalement fallu à la fois des quantités énormes de données d’entraînement comme ImageNet et des processeurs rapides
Ensuite, les progrès successifs sur des architectures particulières ont continué et l’effet boule de neige s’est enclenché
Dans la communauté élargie, AlexNet apparaît comme le grand tournant, mais dans le milieu académique le climat avait commencé à changer deux ou trois ans plus tôt
J’ai commencé à remarquer vers 2008-09 que les présentations sur les réseaux neuronaux n’étaient plus automatiquement ignorées dans les workshops
Les matrices existent depuis 400 ans, mais l’algèbre linéaire, surtout l’algèbre linéaire numérique, n’a explosé qu’avec l’arrivée des ordinateurs
Autrefois, la méthode standard pour résoudre des systèmes d’équations reposait sur la théorie des mineurs, mais avec les ordinateurs, des approches comme l’élimination de Gauss ou les espaces de Krylov se sont fortement développées
Les gens l’avaient peut-être imaginé, mais ils n’avaient pas le matériel pour l’implémenter réellement
En simplifiant, les LLM ne sont au fond que des transformers auxquels on a ajouté une quantité gigantesque de données, et pour rendre l’apprentissage possible à cette échelle, un matériel suffisamment puissant était indispensable
Il est intéressant qu’un outil d’apprentissage, le cerveau, cherche à comprendre un autre outil d’apprentissage
Le SGD fonctionne déjà suffisamment bien, et le rendre plusieurs fois meilleur ne résoudra peut-être pas la question fondamentale de ce que fait réellement cette black box
La manière dont on apprend et ce que fait réellement le modèle sont deux questions différentes, d’autant que notre cerveau lui-même est aussi une black box à bien des égards
J’ai donc eu l’impression qu’il fallait davantage de liens entre la recherche sur les mécanismes d’apprentissage, la psychologie, et les idées philosophiques sur la nature de la pensée et du langage
C’est encourageant, mais je trouve le titre un peu exagéré
Quelque chose comme des angles d’attaque pour comprendre ce que fait réellement le deep learning aurait été plus juste, mais sans doute moins accrocheur
Si cela pouvait déboucher sur une manière de mesurer quand les systèmes de deep learning produisent des hallucinations, ce serait d’une valeur énorme
Tant que ce n’est pas possible, on ne pourra utiliser les systèmes de deep learning que de façon limitée, pour des tâches où les dégâts causés par des sorties absurdes restent faibles
Par exemple, le mot hallucination lui-même force une signification humaine sur la sortie d’un LLM
Si l’on regarde leur fonctionnement mathématique réel, une hallucination n’est qu’une sortie parmi d’autres, sans frontière clairement définie entre elle et les autres sorties
C’est d’ailleurs aussi ma principale direction de recherche, donc je peux être biaisé
L’approche la plus courante est la détection OOD, mais j’ai toujours trouvé que la formulation même du problème y était instable
Avec des collègues, nous essayons donc une approche plus fondamentale basée sur la mesure de la misspecification du modèle, mais le coût de calcul est tellement élevé que cela reste encore un sujet de niche
Quelle que soit la direction, il faudra probablement encore du temps avant une véritable percée
Cela me fait penser à quel point c’est conceptuellement proche du vibecoding
On commence par faire en sorte que quelque chose fonctionne, et comprendre ensuite pourquoi et comment cela marche est un travail totalement distinct
Attendez, on a donc construit quelque chose qu’on ne comprend toujours pas vraiment et qu’on ne sait pas correctement expliquer, et maintenant on appelle ça de la science ?
Depuis des décennies, on emprunte le vocabulaire de la biologie, notamment de la neurobiologie, et au final on a un peu l’impression d’un copy paste imitant les singes
Pour être honnête, j’ai trouvé ces deux tentatives de théorie générale encore plus intéressantes
https://arxiv.org/abs/2510.12269
https://www.mdpi.com/1099-4300/28/3/332
Je suis aussi curieux du lien avec la fuzzy logic
Les réseaux neuronaux donnent l’impression de raisonner de manière floue, mais je ne sais pas très bien comment il faudrait formaliser cela
Pendant des années, il y a eu des tentatives de formalisation du fuzzy reasoning, mais on dirait qu’aujourd’hui plus personne ne s’y intéresse
J’ai l’impression que les réseaux neuronaux et les transformers sont un peu les OOP du ML
C’est extrêmement populaire et assez efficace en pratique, mais les fondements restent opaques, avec l’impression de réexprimer dans un nouveau langage quelque chose qui était déjà exprimable auparavant, sans pouvoir identifier précisément d’où vient le gain
Je n’ai pas encore lu tout l’article, mais je l’ai trouvé vraiment captivant et assez réfléchi
Il y a énormément à digérer, mais voir tout cela rassemblé en un seul endroit est vraiment fascinant
Si le deep learning fonctionne bien à haut niveau, c’est au fond parce qu’il est meilleur que les autres approches pour continuer à apprendre à partir de plus de données
Mais sans les volumes de données gigantesques disponibles aujourd’hui, l’architecture n’aurait sans doute pas eu une telle importance
Tant qu’on n’explique pas ensemble les deux côtés de l’équation modèle-données, il est difficile de construire une théorie scientifique solide sur des questions comme pourquoi les modèles de reasoning raisonnent
Un modèle est le produit conjoint de son architecture et de ses données d’entraînement
Pour l’instant, ce problème paraît presque aussi insaisissable que celui d’expliquer comment les humains ou les animaux apprennent certaines choses à partir d’une masse immense de données d’entrée
La compréhension empirique va sans doute s’améliorer, mais le fond du sujet ne se réduira peut-être pas de nouveau à l’informatique théorique
À mon avis, le cœur de la vraie complexité est moins dans l’architecture que dans les gigadatasets
La théorie devient décisivement importante au moment où il faut prédire les modes d’échec
Un système d’aide à la décision qui fonctionne à peu près la plupart du temps mais échoue silencieusement dans les cas limites est plus dangereux qu’un système plus simple dont les limites sont clairement connues
Comprendre les mécanismes de biais aide à distinguer les moments où le modèle est réellement sûr de lui de ceux où il fait simplement du pattern matching
Cette différence est particulièrement importante dans les environnements à forts enjeux