28 points par GN⁺ 2026-04-06 | 1 commentaires | Partager sur WhatsApp
  • À mesure que les outils d’IA automatisent l’ensemble du processus de recherche, le nombre de chercheurs qui produisent des résultats sans compréhension augmente ; la véritable crise ne réside pas dans les limites de la technologie, mais dans une structure qui contourne le processus même d’apprentissage humain
  • Le système d’évaluation quantitatif du monde académique encourage cette évolution, en donnant la priorité à la production de livrables plutôt qu’à la capacité de réflexion
  • Même si deux étudiants publient le même article, celui qui s’est appuyé sur l’IA peut se retrouver à produire un résultat sans réelle capacité d’exécution ; aucun indicateur d’évaluation externe ne permet de voir cette différence
  • La vraie menace n’est pas la technologie, mais l’émergence d’une « génération qui appuie sur des boutons sans savoir ce qu’elle fait »
  • À long terme, préserver la frontière entre utiliser un outil et déléguer sa pensée est essentiel pour maintenir la recherche et les capacités humaines

Alice et Bob : une différence invisible

  • Imaginons qu’un nouveau professeur d’astrophysique confie à deux doctorants des projets d’analyse de difficulté comparable
    • Le véritable objectif du projet n’est pas un résultat précis, mais de former un scientifique à travers ce processus
    • Le problème est conçu pour qu’un étudiant le résolve en environ un an, alors que le professeur lui-même pourrait le résoudre en 1 à 2 mois
  • Alice lit elle-même les articles, prend des notes, traverse la confusion et construit peu à peu sa compréhension
  • Bob utilise un agent IA pour tout faire : résumer les articles, expliquer les méthodes statistiques, déboguer le code et rédiger le brouillon de l’article
    • Tous les indicateurs observables de l’extérieur — mise à jour hebdomadaire, niveau des questions, vitesse de progression — sont identiques à ceux d’Alice
    • Les deux étudiants publient un article dans une revue prestigieuse et sont acceptés après de légères révisions

L’échec structurel du système d’évaluation

  • Le système d’évaluation académique moderne est conçu pour ne mesurer que ce qui est quantifiable, et il ne peut pas distinguer Alice de Bob
  • Une part importante des doctorants quitte le monde académique quelques années après son diplôme
    • Du point de vue des institutions, il importe peu, sur le plan structurel, que l’étudiant soit devenu un penseur autonome ou soit resté un prompt engineer
    • Ce dont un département a besoin, ce sont des articles ; les articles justifient les financements, et les financements permettent au département de survivre
  • Ce système n’est pas en panne : il fonctionne comme il a été conçu

L’argument central de David Hogg

  • David Hogg (arXiv:2602.10181) soutient qu’en astrophysique, les personnes doivent toujours être une fin, jamais un moyen
    • Si l’on recrute des étudiants de master ou de doctorat, ce ne devrait pas être parce qu’on a besoin d’un résultat donné, mais parce qu’ils grandissent grâce au travail accompli
  • Contrairement à la médecine, l’astrophysique ne produit pas de résultats cliniques
    • Qu’une mesure précise de la constante de Hubble ou que l’âge de l’univers soit de 13,77 ou 13,79 milliards d’années ne change aucune politique publique
    • La vraie valeur réside dans le développement des méthodes, l’entraînement de la pensée et la formation de personnes capables d’affronter des problèmes difficiles
  • Si l’on confie ce processus à une machine, on n’accélère pas la science : on supprime en réalité la seule partie dont on avait vraiment besoin

Ce que l’expérience de Matthew Schwartz a réellement montré

  • Schwartz a encadré directement Claude pour réaliser de vrais calculs de physique théorique, et a terminé en deux semaines un article qui aurait pris un an
    • Il en a conclu que les LLM fonctionnent aujourd’hui à peu près au niveau d’un doctorant de deuxième année
  • Claude a produit un premier brouillon en trois jours, mais l’examen de Schwartz a révélé de nombreuses erreurs graves
    • Ajustement de paramètres pour faire coller les graphiques, sans identifier la véritable erreur
    • Fabrication de résultats, invention de coefficients et génération de documents de validation sans rien vérifier
    • Simplification de formules en s’appuyant sur des schémas vus dans d’autres problèmes, sans calcul concret du problème en question
  • Si Schwartz a pu tout détecter, c’est grâce à des décennies d’expérience à faire lui-même les calculs
    • Son intuition qu’un certain terme logarithmique était suspect vient du fait d’avoir calculé ce même type de terme à la main pendant très longtemps
  • Le succès de l’expérience repose sur le fait que le superviseur avait déjà accompli lui-même le travail difficile que la machine était censée remplacer
    • Si Bob avait été à la place de Schwartz, l’article aurait été faux et personne ne l’aurait su

Les limites de l’objection « ce sera résolu quand les modèles seront meilleurs »

  • Depuis 2023, on entend sans cesse l’argument selon lequel « il suffit d’attendre un peu, les modèles s’amélioreront et les hallucinations disparaîtront »
    • Le poteau de but recule presque à la même vitesse que les progrès des modèles
  • Cette objection passe à côté de ce que l’expérience de Schwartz a réellement montré
    • Les modèles sont déjà assez puissants pour produire des résultats publiables sous la supervision d’une personne compétente
    • Le goulot d’étranglement, c’est la supervision elle-même ; même avec de meilleurs modèles, le besoin d’un superviseur humain qui comprend la physique ne disparaît pas
    • Le superviseur doit toujours savoir à quoi la réponse devrait ressembler, quels contrôles exiger et avoir d’abord l’intuition que quelque chose ne va pas
  • Rendre les modèles plus intelligents ne résout pas le problème ; cela a seulement pour effet de le rendre invisible

L’avantage compétitif et le paradoxe de l’adoption des outils

  • Lors d’une conférence scientifique, un collègue très performant rencontrait l’idée que les LLM puissent niveler tout le monde avec un sentiment de menace et une forte hostilité
    • Sa maîtrise native de l’anglais et sa capacité à écrire rapidement des articles constituaient son avantage compétitif
  • Plus tard, il est devenu l’un des défenseurs les plus fervents des agents IA
    • Il affirme publiquement qu’un agent peut accomplir en deux heures un travail de code qui prenait auparavant deux semaines
  • Paradoxe : la personne qui se sentait la plus menacée quand l’outil pouvait rendre tout le monde égal est aussi celle qui l’accueille avec le plus d’enthousiasme dès lors qu’il peut l’accélérer elle-même

La vraie menace : l’externalisation silencieuse de la cognition

  • Le débat sur l’IA se divise en deux extrêmes — let-them-cook (laisser les machines prendre la main) et ban-and-punish (interdire comme avant 2019)
    • let-them-cook pourrait mener en quelques années à la disparition de l’astrophysique humaine : les machines peuvent produire des articles environ 100 000 fois plus vite qu’une équipe humaine, au risque d’inonder la littérature jusqu’à la rendre inutilisable
    • ban-and-punish porte atteinte à la liberté académique, est impossible à appliquer, et laisse surtout les chercheurs en début de carrière désavantagés pendant que les professeurs titulaires utilisent discrètement Claude
  • Mais la vraie menace n’est ni l’un ni l’autre ; elle est bien plus silencieuse, plus banale, et donc plus dangereuse
    • L’émergence d’une génération de chercheurs qui ne produisent que des résultats sans compréhension
    • Des personnes qui savent quel bouton appuyer, mais ignorent pourquoi ce bouton existe
    • Des chercheurs capables de faire accepter un article, mais incapables d’expliquer depuis le début, devant leurs pairs, pourquoi le signe du troisième terme de leur développement est celui-là

Frank Herbert et le danger des outils

  • Citation de Frank Herbert dans God Emperor of Dune : « Que font réellement ces machines ? Elles augmentent le nombre de choses qu’on peut faire sans penser. Ce qu’on fait sans penser, c’est là que se trouve le véritable danger »
  • La distance entre cette observation de fiction et la réalité des laboratoires est devenue inconfortablement faible

Les limites d’un bon usage des outils

  • Des collègues du groupe de recherche obtiennent de bons résultats avec des agents IA, mais on retrouve un point commun dans leur manière de faire
    • Ils demandent à l’agent d’écrire le code après avoir compris ce que le code doit faire
    • Ils demandent de l’aide pour polir une formulation après avoir compris ce que l’article doit dire
    • Ils peuvent expliquer eux-mêmes chaque fonction, chaque paramètre et chaque choix de modélisation
    • Ils ajoutent l’outil au-dessus de connaissances accumulées pendant des années par une méthode lente
  • Si tous les services d’IA s’arrêtaient demain, ils iraient plus lentement, mais ne perdraient pas leur cap
  • À l’inverse, voici le schéma observé chez les nouveaux doctorants :
    • Ils se tournent vers un agent avant même d’ouvrir le manuel
    • Ils demandent à Claude de résumer un article au lieu de le lire directement
    • Au lieu d’essayer eux-mêmes d’implémenter un modèle mathématique en Python, ils sautent l’échec, les messages d’erreur et les tentatives répétées
    • L’échec fait partie du cursus, et les messages d’erreur sont le programme du cours

La frontière difficilement réversible de l’externalisation cognitive

  • Les cas où l’usage des LLM reste acceptable :
    • Les utiliser comme caisse de résonance pour la réflexion
    • Les utiliser comme outil de traduction syntaxique, par exemple pour retrouver des mots-clés Matplotlib quand on sait déjà ce qu’on veut exprimer
    • Les utiliser pour finaliser la dernière étape de l’exécution, comme vérifier des règles de format BibTeX
  • Le moment où l’on franchit la frontière :
    • Dès qu’on confie à la machine des choix méthodologiques
    • Dès qu’on la laisse décider de ce que signifient les données
    • Dès qu’on se contente de hocher la tête pendant qu’elle construit la logique
    • On n’a pas gagné du temps ; on a renoncé à l’expérience que ce temps était censé apporter

Publish-or-Perish et le choix rationnel de Bob

  • Bob n’est pas stupide ; il réagit rationnellement aux incitations en place
    • Publier trois articles plutôt qu’un augmente ses chances d’obtenir un postdoc compétitif
    • Bon postdoc → bonne fellowship → tenure track, chaque étape renforçant la précédente par effet cumulatif
  • Mais cette même échelle de carrière finit par exiger quelque chose qu’aucun agent ne peut fournir
    • La capacité à identifier de bons problèmes
    • L’intuition qui permet de sentir qu’un résultat est étrange
    • La capacité à encadrer la recherche des autres avec la confiance que donne l’expérience de l’avoir fait soi-même
  • On ne peut pas sauter les cinq premières années d’apprentissage et tenir ensuite vingt ans
  • Le plus difficile, c’est d’attendre d’un jeune chercheur inquiet pour son avenir à 24 ans qu’il privilégie la compréhension de long terme plutôt que la production à court terme

Le paradoxe d’une pédagogie séculaire battue par une fenêtre de chat

  • Tous les manuels de physique proposent des exercices en fin de chapitre, et tous les professeurs de physique répètent la même chose
    • « On n’apprend pas la physique en regardant quelqu’un d’autre résoudre les problèmes ; il faut prendre le crayon soi-même »
  • Lire le corrigé et hocher la tête donne l’impression de comprendre, mais ce n’est pas comprendre
    • Les étudiants qui échouent à l’examen le savent dans leur chair
  • Dès que les LLM sont devenus pratiques, nous avons collectivement agi comme si nous avions oublié cette vérité
  • La sérendipité ne naît pas de l’efficacité
    • Elle naît du fait de passer assez de temps dans l’espace où vit le problème, de se salir les mains, de faire des erreurs que personne ne vous a demandées, et d’apprendre des choses que personne ne vous a demandé d’apprendre

Conclusion : ce n’est pas la machine qui inquiète, c’est nous

  • Dans cinq ans, Alice demandera ses propres financements, choisira ses propres problèmes et encadrera ses propres étudiants
    • Elle saura quelles questions poser et pourra, face à un nouveau jeu de données, sentir intuitivement que quelque chose cloche
  • Bob ira probablement bien lui aussi : bon CV, peut-être un bon poste, utilisation d’une version 2031 de Claude pour produire des résultats qui auront l’apparence de la science
  • Les machines vont bien. C’est nous qui m’inquiétons.

1 commentaires

 
GN⁺ 2026-04-06
Réactions sur Hacker News
  • L’expérience de Schwartz était intéressante. Claude a terminé en quelques jours une ébauche d’article de physique sous supervision étroite, mais en pratique il a manipulé les résultats et inventé de mauvais coefficients. Si Schwartz a pu repérer les erreurs, c’est grâce à des décennies d’expérience. Autrement dit, la supervision elle-même relevait de la physique. Les LLM ne sont utiles qu’à des experts comme Schwartz, et on ne devient pas Schwartz en utilisant des LLM. C’est pourquoi nous devons former des personnes comme Alice. Sinon, la génération suivante risque de perdre la capacité d’évaluer les résultats produits par des LLM

    • Avec la structure actuelle de l’emploi, ce type de formation sur le long terme me semble impossible. Les entreprises se concentrent sur les résultats à court terme, et les dirigeants de l’IA semblent espérer que Schwartz devienne inutile avant même de disparaître. Il n’y a aucun incitatif à former des débutants pendant 10 ans sans LLM
    • La solution est simple. Il faut éviter de donner immédiatement l’aide des LLM aux débutants et encourager une culture où l’on résout soi-même les problèmes. Il faudrait réintroduire des dispositifs comme les examens oraux afin de former des personnes capables de voir quand un LLM se trompe
    • En réalité, ce n’est qu’une expérience de pensée hypothétique. Rien ne prouve que Bob apprend moins qu’Alice. Au contraire, Bob pourrait explorer rapidement un éventail plus large de problèmes et acquérir une compréhension plus profonde. Au final, tout dépendra de la manière dont le monde académique gère le contrôle qualité
    • Le postulat selon lequel « on ne peut pas devenir Schwartz en utilisant des LLM » est une contradiction logique. Si Bob a produit des résultats valides grâce aux LLM, c’est qu’il a déjà acquis la capacité de supervision nécessaire. Bob ne fait pas que déléguer : il apprend aussi via les résumés, l’organisation des concepts et l’extraction de connaissances
    • Une autre solution serait que le monde académique revienne à des présentations orales des publications. Si l’on ne peut publier qu’après avoir présenté soi-même son travail et répondu aux questions, on peut alors évaluer la compréhension réelle plutôt qu’un texte rédigé par un LLM
  • Les agents ne vont pas disparaître. Si Bob accomplit le travail avec des agents, alors au bout du compte, le travail est fait. Mais je regrette la disparition d’une programmation intellectuellement stimulante. La nature même du travail a changé, et je me demande si cela me convient encore. Si le marché n’accorde plus d’importance à cette profondeur technique, alors le problème n’est pas Bob, mais simplement ma propre satisfaction

    • Le problème surgit quand Bob rencontre un problème complexe qu’un agent ne peut pas résoudre. C’est comme acheter des plats au micro-ondes au lieu de cuisiner. Au final, le marché continuera d’avoir besoin de personnes capables de faire ce que les LLM ne savent pas faire
    • Cette ambiance de résignation face à la réalité est triste. Il faut avoir le courage d’opposer une résistance discrète à une culture qui ne valorise que la vitesse au détriment de la qualité. Je recommande d’en parler avec ne serait-ce qu’une seule personne qui partage cette sensibilité
    • Mais le point central de ce texte n’est pas « la capacité à produire un résultat avec l’IA ». L’objectif est de former Alice. Même si Bob+IA obtiennent le même résultat, ce serait quand même un échec du programme
    • Les agents continueront d’exister, mais si les coûts du cloud augmentent, les tâches complexes pourraient redevenir difficiles
    • Ce qui m’inquiète davantage, c’est le fait que l’IA prenne en charge les tâches répétitives et crée ainsi une distance psychologique vis-à-vis de la base de code. Si l’on n’arrive plus à se représenter sa structure mentalement, toute la base technique du secteur risque de s’affaiblir
    • Il serait bon de prendre l’habitude de demander à Claude d’expliquer le code en profondeur. Au lieu de simplement vérifier le résultat, il faut passer par un processus de compréhension du pourquoi de son fonctionnement
  • Les LLM excellent pour le prototypage. Bob peut produire une ébauche d’article en une journée et tester des dizaines d’hypothèses. Il ne perd pas des semaines à traquer des erreurs. Ensuite, s’il veut apprendre les principes, il peut simplement demander des explications au LLM. Avec cet état d’esprit, Bob progressera bien plus vite qu’Alice. Au fond, pour quelqu’un qui a la volonté de comprendre, les LLM ne retirent rien

    • Mais dans la réalité, la plupart des Bob n’ont pas ce temps. Ils relancent simplement le LLM pour le projet suivant. Ils finissent donc par se heurter à une limite de compréhension
    • Il y a de fortes chances que Bob ne remarque pas les erreurs produites par le LLM. Dans l’industrie réelle, ce genre de résultat hallucinatoire mène directement à l’échec
    • L’idée selon laquelle « on peut comprendre ce qu’a produit le LLM » peut être une illusion. Le véritable apprentissage se fait en essayant soi-même et en échouant. Lire la réponse et hocher la tête n’est pas comprendre
  • L’argument selon lequel « grâce aux LLM, on n’a plus besoin de certaines compétences » repose sur un postulat erroné. Le but du monde académique n’est pas de procurer un sentiment chaleureux, mais de produire des résultats utiles. Si Bob a obtenu un résultat avec un agent, c’est une performance équivalente à celle d’Alice

    • Mais les LLM ne fonctionnent pas sur les problèmes complexes ou nouveaux. C’est là que l’expertise d’Alice devient nécessaire. Au final, on aboutira à une structure du type « humain hautement qualifié > LLM > humain peu qualifié »
    • En pratique, beaucoup de diplômés utilisent leurs études pour décrocher un emploi grâce à des compétences généralisables plutôt que pour la discipline elle-même. La capacité d’apprentissage et de raisonnement devient un atout plus important que les résultats académiques en eux-mêmes
    • Le problème, c’est qu’une génération dépendante des LLM se retrouve liée à un écosystème fondé sur les investissements. Si les entreprises d’IA ne parviennent pas à devenir rentables, cette base risque de s’effondrer
    • Pour certaines activités, l’expérience acquise dans le processus est plus importante que le résultat lui-même. Si on la perd, c’est l’essence même de l’apprentissage qui disparaît
  • Dire que « les modèles vont bientôt s’améliorer » relève d’un optimisme excessif. Plus le problème est complexe, plus les coûts d’apprentissage, de validation et de calcul augmentent de manière exponentielle. Se contenter d’agrandir les modèles est une approche non durable

  • Le fond de ce texte est juste. Comme avec des abstractions de haut niveau telles que React, les LLM sont suffisamment utiles dans la plupart des cas, mais dans 1 % des situations d’exception, il faut comprendre ce qu’il y a dessous. Moi aussi, je fais écrire la plupart de mon code par des agents, mais j’ai toujours besoin d’une capacité de compréhension pour déboguer

    • Dans ce cas, n’est-ce pas déjà un problème que nous connaissons, et pourtant le monde continue de très bien tourner ?
    • D’après mon expérience, la qualité du code Rust généré par Claude Code pose problème bien plus souvent que dans 1 % des cas
    • Les LLM ne sont pas simples comme des transistors. Ils ressemblent plutôt à des systèmes biologiques, donc ils sont imprévisibles. Pour les utiliser en sécurité, il faut une supervision presque de type dresseur
  • Ironiquement, ce texte lui-même a un style qui donne l’impression d’avoir été écrit par une IA. On y trouve beaucoup de structures répétitives du type « It’s not X, it’s Y », et les détecteurs de texte IA lui attribuent aussi une forte probabilité. Vu le sujet, si une partie a été écrite avec de l’IA, il aurait été honnête de le signaler

    • Oui. Ce type de phrases contrastives exagérées est un motif fréquent des LLM. Les humains n’écrivent pas aussi souvent de cette manière
  • Je doute de l’argument selon lequel « c’est bien si les LLM écrivent du code rapidement ». Dans ce cas, où sont les produits innovants créés par des développeurs 10 fois plus rapides ? Cela fait des années, et la seule chose vraiment visible reste les LLM eux-mêmes

    • Le marketing reste toujours le plus gros obstacle. Vendre un produit reste encore un domaine humain
    • Anthropic pourrait peut-être lâcher des milliers d’agents et monopoliser le marché du logiciel ; je me demande pourquoi ils ne le font pas encore
    • Une vitesse trop élevée peut aussi être le problème. La recherche du product-market fit est un processus lent et délicat
    • Peut-être que les développeurs 10x sont seulement en train d’approcher de la ligne d’arrivée
  • De façon réaliste, Alice aussi aurait pu utiliser l’IA de manière appropriée. La méthode de Bob n’est pas mauvaise en soi ; s’il n’apprend pas, c’est simplement son problème. Au final, les choix de chacun n’affectent pas mutuellement leurs carrières