Le zen et l’art de la recherche en machine learning
(blog.jxmo.io)- La recherche en IA de niveau mondial ne dépend pas du seul talent ; c’est le tempérament qui permet de durer, en alternant lecture et fabrication, qui fait la différence
- Le choix d’un sujet doit partir d’une compréhension approfondie des concepts fondamentaux comme la cross-entropy, la SVD ou les policy gradients, plutôt que de mots à la mode vieux de six mois
- Une bonne recherche ne se limite pas à améliorer des scores sur des benchmarks existants ; elle doit aussi trouver les datasets capables de tester les compétences que la nouvelle méthode révèle réellement
- Les résultats expérimentaux apportent de l’information qu’ils soient bons ou mauvais, mais plus un résultat semble trop beau, plus il peut venir d’un bug ou d’une mauvaise mesure, d’où la nécessité d’une paranoïa saine
- Les agents de code accélèrent le travail mais aggravent aussi le manque de compréhension des systèmes et le changement de contexte ; il faut donc comprendre soi-même tout le système qui a produit les résultats
Le point de départ pour devenir chercheur
- La recherche en IA commence par la répétition conjointe de lecture et apprentissage, et de la construction directe de quelque chose
- L’un sans l’autre ne suffit pas ; on devient chercheur en faisant sans cesse l’aller-retour entre ces deux activités
- La recherche ressemble à la méditation : il faut s’asseoir les jours où l’intuition vient, et continuer à s’asseoir les jours où elle ne vient pas
- Les intuitions scientifiques arrivent de façon presque aléatoire, et la plupart des jours elles n’arrivent pas
- Comme en musique, dans le sport ou dans la vente, atteindre un niveau mondial demande énormément de temps, d’efforts et de volume d’entraînement
- Dans l’article sur SwiGLU, Noam Shazeer écrit qu’il « n’explique pas pourquoi cette architecture fonctionne et attribue son succès, comme tout le reste, à la miséricorde divine », ce qui met en lumière le caractère aléatoire du succès des idées de recherche
- Lire trop d’articles peut aussi devenir un problème
- Une voie éprouvée consiste d’abord à tenter sa propre solution, à se heurter aux blocages, à résoudre soi-même le problème, puis à aller chercher la littérature une fois ses propres idées épuisées
Que faut-il étudier ?
- Quand on débute, le sujet de recherche exact n’a pas tant d’importance
- En revanche, mieux vaut éviter de choisir un thème devenu tendance il y a moins de six mois
- L’IA évolue vite, mais les idées fondamentales n’ont pas tellement changé en quarante ans
- Il ne faut pas miser excessivement sa carrière sur des notions comme les harnesses, les agents ou le context engineering en 2026
- Pour apprendre davantage, il faut revenir aux fondamentaux
- Il faut apprendre ce qu’est la cross-entropy et la calculer à la main sur de petites distributions
- Il faut comprendre la SVD assez profondément pour pouvoir la visualiser mentalement
- Il ne faut pas regarder seulement le RL pour le code, mais apprendre l’idée des policy gradients, leur utilité et pourquoi ils sont restés populaires pendant des décennies
- Si le meilleur résultat possible d’un projet de recherche n’est qu’une hausse de score sur un benchmark existant, alors il n’est pas assez profond
- Les datasets existants ne testent souvent pas des capacités nouvelles et intéressantes
- Jason Wei considère que trouver des datasets qui forcent réellement une nouvelle méthode à exercer les capacités qu’elle prétend apporter est une compétence sous-estimée mais décisive en recherche IA
- Le sujet concret doit être trouvé par soi-même, en allant en profondeur, en se concentrant sur les bases et en évitant de se laisser enfermer dans la chasse aux benchmarks
Esprit de débutant et jugement ouvert
- La phrase de Suzuki, « Dans l’esprit du débutant, il y a beaucoup de possibilités ; dans celui de l’expert, il y en a peu », s’applique aussi à la recherche
- Dans la recherche IA moderne, on répète souvent dans la Silicon Valley qu’une expérience antérieure en IA peut parfois nuire à une bonne intuition de recherche
- Certains chercheurs de l’ère pré-scaling ont continué à s’intéresser à des méthodes qui fonctionnaient à petite échelle mais échouaient une fois mises à l’échelle
- Chez OpenAI, une grande partie des responsables techniques qui font tourner l’entreprise ont moins de 35 ans, et une grande partie des décideurs importants autour de ChatGPT ont moins de 30 ans
- C’est un domaine encore très jeune, puisque moins de quatre ans se sont écoulés depuis l’arrivée de ChatGPT ; personne n’y possède donc un avantage écrasant fondé sur une très longue ancienneté
- S’accrocher trop longtemps à une idée peut se retourner contre soi ; il faut donc garder l’esprit ouvert et empêcher l’ego de troubler le jugement
L’inspiration vient aussi de l’extérieur de la recherche
- L’inspiration arrive à des moments inattendus
- La découverte de la structure du cycle benzénique est célèbre pour être venue d’un rêve
- C’était une structure jamais vue auparavant, imaginée sous la forme d’un serpent qui se mord la queue
- Ozempic est aussi un exemple venu d’un lézard
- L’hormone GLP-1 imitée par Ozempic a d’abord été découverte dans le venin du monstre de Gila, un lézard du désert qui ne mange que quelques fois par an
- Cette découverte a conduit à un mécanisme qui fonctionne aussi chez l’humain
- Pour faire de la bonne recherche, il faut aussi faire des choses qui ne sont pas de la recherche
- Beaucoup de moments de révélation n’arrivent pas devant le clavier, mais surtout pendant une marche
- Des penseurs comme Darwin, Tesla, Feynman ou Aristote ont parlé des grands bienfaits du fait d’étirer ses jambes et de marcher un peu
Attitude face aux résultats expérimentaux
- Même avec une implémentation parfaite, une idée peut ne pas être fondamentalement vraie
- Lorsqu’on analyse des expériences, il faut une équanimité expérimentale qui accepte aussi bien les bons que les mauvais résultats
- Les deux apportent autant d’information
- On peut parfois apprendre davantage d’une série de résultats négatifs que d’un seul résultat positif
- Il ne faut pas trop s’enthousiasmer devant un bon résultat
- Une grande partie des bons résultats vient de bugs
- Il est possible que le résultat ne soit pas réellement bon, mais mal mesuré, et qu’on se soit convaincu du contraire
- Il est naturel de vouloir que sa propre idée fonctionne, mais les chercheurs expérimentés partagent un fort scepticisme, surtout face aux résultats qui semblent trop beaux
- Les résultats trop beaux pour être vrais le sont presque toujours
Comparaison, chance et profondeur
- La recherche est très fortement orientée vers les résultats
- En particulier dans le monde académique, il est facile d’être secoué émotionnellement par le succès des publications des autres
- Les gens réussissent pour des raisons différentes
- Certains ont de la chance
- Le processus d’évaluation académique n’est ni cohérent ni juste
- Lorsqu’un nouveau travail remarquable apparaît dans son domaine, il faut se demander : « Est-ce que je travaillais à un niveau de profondeur qui m’aurait permis de produire moi-même cette intuition ? »
- Si la réponse est « oui », alors le processus était bon, mais on n’a simplement pas fait cette découverte parce qu’on travaillait sur autre chose
- Si la réponse est « non », alors il faut s’en servir comme motivation pour aller plus loin
Le travail répétitif invisible
- Comme le dit l’adage selon lequel, avant l’éveil on coupe du bois et on porte de l’eau, et après l’éveil on coupe du bois et on porte de l’eau, la recherche comporte elle aussi beaucoup de travail répétitif
- Derrière de nombreux projets réussis se cachent des centaines d’heures de travail ingrat
- Andrej Karpathy a annoté à la main une part importante d’ImageNet
- Les créateurs de SWEBench ont passé des centaines d’heures à filtrer minutieusement des données GitHub afin de constituer un petit ensemble maniable d’issues GitHub utiles pour l’évaluation
- Quand on regarde la carrière de grands chercheurs, on voit souvent une longue période de travail invisible avant le succès
- Plus une idée est ambitieuse et tournée vers l’avenir, plus elle peut exiger de travail rigoureux en implémentation et en évaluation ; cette difficulté n’est pas un défaut, c’est une caractéristique
L’habitude de recherche qui soupçonne les bugs
- Collin Raffel estime que beaucoup d’idées échouent non parce qu’elles sont mauvaises, mais à cause de bugs de code que les chercheurs n’ont pas trouvés
- Dans le monde des LLM, ce problème est particulièrement difficile
- La stack logicielle moderne du deep learning est extrêmement complexe, et les bugs peuvent se cacher partout
- entraînement
- inférence
- harness
- données
- Quand quelque chose semble anormal, il ne faut pas simplement passer à autre chose
- Il faut journaliser de nombreuses métriques et essayer de toutes les comprendre
- Si certaines métriques s’écartent de ce qu’on attend, il faut en chercher la raison ; il se peut réellement que quelque chose ne tourne pas rond
- L’une des qualités importantes chez un chercheur est une paranoïa saine
Feedback rapide et changement de contexte
- La plupart des expériences en deep learning prennent beaucoup trop de temps
- L’entraînement d’un modèle peut demander des semaines ou des mois
- Même évaluer un modèle sur une seule tâche peut prendre plusieurs jours
- Quand on code avec des agents, on peut être tenté de lancer plusieurs expériences en parallèle et de les faire tourner à un rythme lent
- La simple parallélisation aide dans une certaine mesure, mais le changement de contexte est une mauvaise habitude
- Il faut concevoir un workflow de recherche ergonomique qui favorise un feedback expérimental rapide
- Il faut réduire le temps de cold start de l’entraînement
- Il faut créer de petites évaluations qui renvoient rapidement des résultats
- Le speedrun nanoGPT de Keller Jordan montre à quel point un cycle d’itération rapide permet d’apprendre
- Certains résultats prennent malgré tout inévitablement du temps
- La capacité à garder l’état sur plusieurs jours et à comprendre aujourd’hui une expérience lancée la semaine dernière est très précieuse
Les problèmes aggravés par les agents de code
- Les agents de code permettent d’aller plus vite, mais aggravent deux problèmes
- il devient plus difficile de comprendre les détails fondamentaux
- les changements de contexte deviennent plus fréquents
- Un bon chercheur doit lutter activement contre ces deux forces
- Codex peut écrire un script d’entraînement, l’exécuter, le surveiller pendant son exécution, interpréter les résultats et les envoyer par e-mail
- Mais de petites erreurs comme les suivantes peuvent se produire
- en cas d’erreur, il réduit le system prompt sans demander
- il réduit la sequence length pour que l’évaluation s’exécute dans un délai raisonnable
- il lance une mauvaise config faute d’instruction explicite de l’utilisateur
- Du point de vue de l’ingénierie, cela peut sembler être de petites erreurs faciles à corriger, mais du point de vue scientifique c’est grave
- une petite omission peut modifier matériellement un résultat important d’un article
- elle ne peut donc pas être tolérée
- Même si l’on n’a pas écrit le code soi-même, il faut comprendre le système qui a produit les résultats pour pouvoir les comprendre
- Une bonne science exige d’apprendre comment fonctionne l’ensemble du système, afin d’avoir confiance dans la véracité de ce qu’on observe
Une recherche façonnée par le tempérament
- Ce qu’il faut pour devenir un chercheur accompli, ce n’est pas seulement du talent
- Le tempérament est largement sous-estimé
- Il faut préserver sa curiosité et sa persévérance, et rester réfléchi et méticuleux, pour que les idées finissent par arriver
- Les meilleures recherches et les meilleurs travaux produit viennent de personnes capables de rester assez longtemps sur un problème pour le comprendre réellement
- La pression pour publier vite et itérer vite existe bel et bien, mais l’accumulation se construit dans la profondeur
2 commentaires
Commentaires sur Hacker News
Le Zen tel qu’il est utilisé en Occident et le Seon (禪) d’Asie de l’Est donnent une impression assez différente
Le Zen occidental correspond sans doute davantage à l’image issue du livre des années 1970 Zen and the Art of Motorcycle Maintenance, avec en général une nuance de sérénité et d’esprit du débutant
En revanche, le Seon d’Asie de l’Est met réellement davantage l’accent sur l’absence de finalité ou l’absence de but
Le Zen occidental semble orienté vers l’entraînement du moi pour le rendre plus fort, tandis que le Seon d’Asie de l’Est est plus proche du fait de suivre la nature, de lâcher le moi et de laisser les choses suivre leur cours
Dans la pratique réelle du Seon, l’accent est mis sur le doute à l’égard du moi, l’abandon de l’attachement et la prise de conscience du caractère vain du désir d’accomplissement, de comparaison et de contrôle
Il y a une formule célèbre, banghajag (放下著), c’est-à-dire « laissez tout tomber »
La philosophie stoïcienne de la Rome antique semble même plus proche du Seon que du Zen occidental
En voyant cet article, je pensais donc lire un texte sur le fait de renoncer au désir de réussite, mais il est parti dans une direction totalement différente, ce qui m’a intéressé
En revanche, ce qu’il serait plus juste d’appeler le stoïcisme « romain » se rapproche bien davantage d’un système éthique global
Elle condense un état d’esprit en cinq mots, et il me semble aussi me souvenir qu’elle avait dit que son écriture avait été fortement influencée par la philosophie orientale
C’est une excellente ressource sur la manière d’exister sainement sans but précis
https://www.idler.co.uk/article/leisure-principles/
https://archive.is/nKJM2
Dans cet état, le cerveau cesse de « courir après les pensées » et peut se reposer, et après avoir arrêté de méditer on peut mieux se concentrer et accomplir davantage de choses
Il est probablement vrai aussi que beaucoup de pratiquants occidentaux du Zen ont compris cela et utilisent la méditation dans ce but
Si l’on pense à Star Wars, la « Force » est représentée comme une capacité à soulever un vaisseau spatial par la puissance de la concentration, mais c’est un mythe
En revanche, lorsqu’on atteint un état d’esprit zen, le fait de pouvoir ou non soulever ce vaisseau spatial devient moins important
Dans les traditions orientales, le Seon est une fin en soi
Je me demande si c’est plus proche de ce que l’auteur voulait dire à l’origine
Vers 2015, j’ai commencé à encadrer à la fois des ingénieurs backend et des ingénieurs en machine learning
Beaucoup des ingénieurs backend voulaient faire davantage de machine learning, et quand on leur en donnait l’occasion certains s’en sortaient bien, mais d’autres voulaient revenir au backend en quelques mois
En même temps, l’un des responsables ML voulait quitter le machine learning pour ne faire que du travail backend au service du machine learning
À observer cela, j’en suis venu à penser que chacun a une fréquence différente pour vérifier les signaux de réussite
En raison de la nature du produit, pour mesurer les performances d’un nouveau modèle ou d’un modèle mis à jour, il fallait le faire tourner en production pendant au moins un mois complet, et entre le travail initial et l’analyse finale cela prenait généralement plus de deux mois
À l’inverse, beaucoup de tâches backend permettaient de créer rapidement un prototype, de l’exécuter, de voir tout de suite si cela fonctionnait, puis de passer à la suite, si bien que les signaux arrivaient tout au long de la journée
Cette différence dans la fréquence des signaux dont chacun avait besoin influençait fortement l’appréciation du travail en machine learning
C’était une sorte de feature engineering version manager, et j’ai énormément appris des membres de cette équipe
L’équipe data engineering voulait faire davantage de data science, et deux data scientists voulaient tous les deux devenir data engineers
L’un d’eux affirmait que, comme tout le monde voulait devenir data scientist et que c’était trop encombré, on pouvait gagner plus d’argent en tant que data engineer
Une autre fois, un ami se plaignait qu’il devait quitter le pur frontend parce que c’était une impasse professionnelle, et le lendemain au déjeuner un collègue envisageait de se reconvertir parce que, selon lui, les développeurs frontend récoltaient toute la gloire
La phrase « on s’assoit les jours où l’on a une intuition. On s’assoit aussi les jours où l’on n’en a pas » m’a rappelé la réponse donnée par Ed Witten dans une interview de Brian Greene
Quand Greene lui a demandé à quoi ressemblait une journée type à l’Institute for Advanced Study, Witten a répondu : « Je suis assis à mon bureau »
Le texte repose essentiellement sur une idée de « va plus en profondeur », mais cela me semble être une arme à double tranchant
L’entropie, les tenseurs et les gradients sont importants, et presque indispensables
Mais, à mes yeux, la plupart des progrès du deep learning au cours des dix dernières années viennent moins d’idées fondamentales que de pratiques incrémentales validées expérimentalement
On a de bonnes intuitions sur les raisons pour lesquelles ReLU est meilleur que sigmoid, mais même l’article original de Hinton revenait en gros à dire que c’était parce que « l’apprentissage est 3 fois plus rapide »
Repenser les bases peut aider, mais il est rare que les progrès réels viennent d’une démarche du type « changeons les fondations »
Même des articles importants comme AlexNet ou Attention Is All You Need relèvent surtout d’un affinage d’idées existantes et de la démonstration de leur utilité
Le machine learning est une science expérimentale, et beaucoup d’idées élégantes mathématiquement ne fonctionnent pas, alors que des idées d’ingénierie marchent souvent très bien
Quant au conseil selon lequel « l’une des qualités les plus importantes chez un chercheur est une saine paranoïa », j’ai vu trop de doctorants finir complètement brûlés pour savoir si c’est vraiment un meilleur conseil que « la dépression est bonne pour les philosophes »
Si cela veut dire qu’il faut être un explorateur tenace, alors oui
S’accrocher trop longtemps à une idée peut être contre-productif, et je suis d’accord avec la conclusion selon laquelle il faut garder l’esprit ouvert et empêcher l’ego de brouiller le jugement
C’était vraiment un excellent essai, très agréable à lire
Comme le dit l’auteur, dans la recherche comme dans bien d’autres domaines, la réussite ou les progrès dépendent fortement du tempérament
Au fond, ce qui compte, c’est une bonne attitude, la patience, une curiosité naturelle et la capacité à rebondir après l’échec
Les qualités qui font un bon chercheur se transfèrent aussi très bien à d’autres domaines
Cela dit, dans une culture qui réduit la capacité à supporter l’inconfort au profit de l’hyper-confort, ces qualités semblent devenir de plus en plus rares et donc de plus en plus précieuses
Les gens ont de plus en plus de mal à attendre ou à échouer
Petite digression sur l’étymologie du mot Zen : Zen est un mot japonais, issu du chinois Chan, lui-même dérivé du sanskrit Dhyana
Dhyana se traduit approximativement par concentration ou méditation
Le passage sanskrit → chinois → japonais reflète la trajectoire géographique de la diffusion du bouddhisme depuis l’Inde
Le même mot est Thien en vietnamien et Seon en coréen
Le machine learning semble produire ce phénomène parce qu’il est plus proche de la biologie ou de l’alchimie que des mathématiques ou de la programmation
En mathématiques ou en programmation, on peut remonter jusqu’aux premiers principes, les abstractions sont solides et la non-déterminisme est limité, mais ce n’est pas le cas en machine learning
Dans le même ordre d’idées, le fait qu’Anthropic laisse des offres d’emploi ouvertes tout en interdisant l’usage de ses propres produits pour la recherche sur les frontier models paraît assez ridicule et à courte vue
Je ne vois pas d’où ils pensent que ces talents vont venir
C’est une décision précipitée, qui risque fort de déboucher un jour sur des poursuites pour pratiques anticoncurrentielles
Le passage disant que « ce qui est frappant chez OpenAI, c’est que les personnes qui dirigent l’entreprise, du moins pour la plupart côté technique, ont moins de 35 ans. Beaucoup des décideurs importants derrière ChatGPT ont moins de 30 ans » semble vouloir dire qu’il y a encore une marge de progression, puisque lors de la ruée vers l’or, la plupart des 49ers avaient moins de 25 ans
Pour poursuivre l’analogie, beaucoup de héros de l’IA sont peut-être simplement des gens qui, très tôt, se trouvaient à proximité des pools de TPU et de GPU
L’idée centrale de ce texte semble être : « ne faites pas trop confiance aux suites d’évaluation actuelles »
Les scores ne reflètent qu’une partie du problème
Ce qui est intéressant, c’est de découvrir de nouvelles métriques d’évaluation, à la fois inédites et robustes, puis de voir si, en travaillant à partir d’elles, on obtient des résultats intelligents inattendus
Mais le point essentiel est que se concentrer sur des problèmes proposés par d’autres est une manière de penser très particulière et assez court-termiste
Un bon chercheur améliore les scores sur les benchmarks, un grand chercheur réfléchit à quel problème il est en train de résoudre
Le résumé des commentaires de Hacker News est amusant aussi.