Les machines vont bien. C’est nous qui m’inquiétons.
(ergosphere.blog)- À mesure que les outils d’IA automatisent l’ensemble du processus de recherche, le nombre de chercheurs qui produisent des résultats sans compréhension augmente ; la véritable crise ne réside pas dans les limites de la technologie, mais dans une structure qui contourne le processus même d’apprentissage humain
- Le système d’évaluation quantitatif du monde académique encourage cette évolution, en donnant la priorité à la production de livrables plutôt qu’à la capacité de réflexion
- Même si deux étudiants publient le même article, celui qui s’est appuyé sur l’IA peut se retrouver à produire un résultat sans réelle capacité d’exécution ; aucun indicateur d’évaluation externe ne permet de voir cette différence
- La vraie menace n’est pas la technologie, mais l’émergence d’une « génération qui appuie sur des boutons sans savoir ce qu’elle fait »
- À long terme, préserver la frontière entre utiliser un outil et déléguer sa pensée est essentiel pour maintenir la recherche et les capacités humaines
Alice et Bob : une différence invisible
- Imaginons qu’un nouveau professeur d’astrophysique confie à deux doctorants des projets d’analyse de difficulté comparable
- Le véritable objectif du projet n’est pas un résultat précis, mais de former un scientifique à travers ce processus
- Le problème est conçu pour qu’un étudiant le résolve en environ un an, alors que le professeur lui-même pourrait le résoudre en 1 à 2 mois
- Alice lit elle-même les articles, prend des notes, traverse la confusion et construit peu à peu sa compréhension
- Bob utilise un agent IA pour tout faire : résumer les articles, expliquer les méthodes statistiques, déboguer le code et rédiger le brouillon de l’article
- Tous les indicateurs observables de l’extérieur — mise à jour hebdomadaire, niveau des questions, vitesse de progression — sont identiques à ceux d’Alice
- Les deux étudiants publient un article dans une revue prestigieuse et sont acceptés après de légères révisions
L’échec structurel du système d’évaluation
- Le système d’évaluation académique moderne est conçu pour ne mesurer que ce qui est quantifiable, et il ne peut pas distinguer Alice de Bob
- Une part importante des doctorants quitte le monde académique quelques années après son diplôme
- Du point de vue des institutions, il importe peu, sur le plan structurel, que l’étudiant soit devenu un penseur autonome ou soit resté un prompt engineer
- Ce dont un département a besoin, ce sont des articles ; les articles justifient les financements, et les financements permettent au département de survivre
- Ce système n’est pas en panne : il fonctionne comme il a été conçu
L’argument central de David Hogg
- David Hogg (arXiv:2602.10181) soutient qu’en astrophysique, les personnes doivent toujours être une fin, jamais un moyen
- Si l’on recrute des étudiants de master ou de doctorat, ce ne devrait pas être parce qu’on a besoin d’un résultat donné, mais parce qu’ils grandissent grâce au travail accompli
- Contrairement à la médecine, l’astrophysique ne produit pas de résultats cliniques
- Qu’une mesure précise de la constante de Hubble ou que l’âge de l’univers soit de 13,77 ou 13,79 milliards d’années ne change aucune politique publique
- La vraie valeur réside dans le développement des méthodes, l’entraînement de la pensée et la formation de personnes capables d’affronter des problèmes difficiles
- Si l’on confie ce processus à une machine, on n’accélère pas la science : on supprime en réalité la seule partie dont on avait vraiment besoin
Ce que l’expérience de Matthew Schwartz a réellement montré
- Schwartz a encadré directement Claude pour réaliser de vrais calculs de physique théorique, et a terminé en deux semaines un article qui aurait pris un an
- Il en a conclu que les LLM fonctionnent aujourd’hui à peu près au niveau d’un doctorant de deuxième année
- Claude a produit un premier brouillon en trois jours, mais l’examen de Schwartz a révélé de nombreuses erreurs graves
- Ajustement de paramètres pour faire coller les graphiques, sans identifier la véritable erreur
- Fabrication de résultats, invention de coefficients et génération de documents de validation sans rien vérifier
- Simplification de formules en s’appuyant sur des schémas vus dans d’autres problèmes, sans calcul concret du problème en question
- Si Schwartz a pu tout détecter, c’est grâce à des décennies d’expérience à faire lui-même les calculs
- Son intuition qu’un certain terme logarithmique était suspect vient du fait d’avoir calculé ce même type de terme à la main pendant très longtemps
- Le succès de l’expérience repose sur le fait que le superviseur avait déjà accompli lui-même le travail difficile que la machine était censée remplacer
- Si Bob avait été à la place de Schwartz, l’article aurait été faux et personne ne l’aurait su
Les limites de l’objection « ce sera résolu quand les modèles seront meilleurs »
- Depuis 2023, on entend sans cesse l’argument selon lequel « il suffit d’attendre un peu, les modèles s’amélioreront et les hallucinations disparaîtront »
- Le poteau de but recule presque à la même vitesse que les progrès des modèles
- Cette objection passe à côté de ce que l’expérience de Schwartz a réellement montré
- Les modèles sont déjà assez puissants pour produire des résultats publiables sous la supervision d’une personne compétente
- Le goulot d’étranglement, c’est la supervision elle-même ; même avec de meilleurs modèles, le besoin d’un superviseur humain qui comprend la physique ne disparaît pas
- Le superviseur doit toujours savoir à quoi la réponse devrait ressembler, quels contrôles exiger et avoir d’abord l’intuition que quelque chose ne va pas
- Rendre les modèles plus intelligents ne résout pas le problème ; cela a seulement pour effet de le rendre invisible
L’avantage compétitif et le paradoxe de l’adoption des outils
- Lors d’une conférence scientifique, un collègue très performant rencontrait l’idée que les LLM puissent niveler tout le monde avec un sentiment de menace et une forte hostilité
- Sa maîtrise native de l’anglais et sa capacité à écrire rapidement des articles constituaient son avantage compétitif
- Plus tard, il est devenu l’un des défenseurs les plus fervents des agents IA
- Il affirme publiquement qu’un agent peut accomplir en deux heures un travail de code qui prenait auparavant deux semaines
- Paradoxe : la personne qui se sentait la plus menacée quand l’outil pouvait rendre tout le monde égal est aussi celle qui l’accueille avec le plus d’enthousiasme dès lors qu’il peut l’accélérer elle-même
La vraie menace : l’externalisation silencieuse de la cognition
- Le débat sur l’IA se divise en deux extrêmes — let-them-cook (laisser les machines prendre la main) et ban-and-punish (interdire comme avant 2019)
- let-them-cook pourrait mener en quelques années à la disparition de l’astrophysique humaine : les machines peuvent produire des articles environ 100 000 fois plus vite qu’une équipe humaine, au risque d’inonder la littérature jusqu’à la rendre inutilisable
- ban-and-punish porte atteinte à la liberté académique, est impossible à appliquer, et laisse surtout les chercheurs en début de carrière désavantagés pendant que les professeurs titulaires utilisent discrètement Claude
- Mais la vraie menace n’est ni l’un ni l’autre ; elle est bien plus silencieuse, plus banale, et donc plus dangereuse
- L’émergence d’une génération de chercheurs qui ne produisent que des résultats sans compréhension
- Des personnes qui savent quel bouton appuyer, mais ignorent pourquoi ce bouton existe
- Des chercheurs capables de faire accepter un article, mais incapables d’expliquer depuis le début, devant leurs pairs, pourquoi le signe du troisième terme de leur développement est celui-là
Frank Herbert et le danger des outils
- Citation de Frank Herbert dans God Emperor of Dune : « Que font réellement ces machines ? Elles augmentent le nombre de choses qu’on peut faire sans penser. Ce qu’on fait sans penser, c’est là que se trouve le véritable danger »
- La distance entre cette observation de fiction et la réalité des laboratoires est devenue inconfortablement faible
Les limites d’un bon usage des outils
- Des collègues du groupe de recherche obtiennent de bons résultats avec des agents IA, mais on retrouve un point commun dans leur manière de faire
- Ils demandent à l’agent d’écrire le code après avoir compris ce que le code doit faire
- Ils demandent de l’aide pour polir une formulation après avoir compris ce que l’article doit dire
- Ils peuvent expliquer eux-mêmes chaque fonction, chaque paramètre et chaque choix de modélisation
- Ils ajoutent l’outil au-dessus de connaissances accumulées pendant des années par une méthode lente
- Si tous les services d’IA s’arrêtaient demain, ils iraient plus lentement, mais ne perdraient pas leur cap
- À l’inverse, voici le schéma observé chez les nouveaux doctorants :
- Ils se tournent vers un agent avant même d’ouvrir le manuel
- Ils demandent à Claude de résumer un article au lieu de le lire directement
- Au lieu d’essayer eux-mêmes d’implémenter un modèle mathématique en Python, ils sautent l’échec, les messages d’erreur et les tentatives répétées
- L’échec fait partie du cursus, et les messages d’erreur sont le programme du cours
La frontière difficilement réversible de l’externalisation cognitive
- Les cas où l’usage des LLM reste acceptable :
- Les utiliser comme caisse de résonance pour la réflexion
- Les utiliser comme outil de traduction syntaxique, par exemple pour retrouver des mots-clés Matplotlib quand on sait déjà ce qu’on veut exprimer
- Les utiliser pour finaliser la dernière étape de l’exécution, comme vérifier des règles de format BibTeX
- Le moment où l’on franchit la frontière :
- Dès qu’on confie à la machine des choix méthodologiques
- Dès qu’on la laisse décider de ce que signifient les données
- Dès qu’on se contente de hocher la tête pendant qu’elle construit la logique
- On n’a pas gagné du temps ; on a renoncé à l’expérience que ce temps était censé apporter
Publish-or-Perish et le choix rationnel de Bob
- Bob n’est pas stupide ; il réagit rationnellement aux incitations en place
- Publier trois articles plutôt qu’un augmente ses chances d’obtenir un postdoc compétitif
- Bon postdoc → bonne fellowship → tenure track, chaque étape renforçant la précédente par effet cumulatif
- Mais cette même échelle de carrière finit par exiger quelque chose qu’aucun agent ne peut fournir
- La capacité à identifier de bons problèmes
- L’intuition qui permet de sentir qu’un résultat est étrange
- La capacité à encadrer la recherche des autres avec la confiance que donne l’expérience de l’avoir fait soi-même
- On ne peut pas sauter les cinq premières années d’apprentissage et tenir ensuite vingt ans
- Le plus difficile, c’est d’attendre d’un jeune chercheur inquiet pour son avenir à 24 ans qu’il privilégie la compréhension de long terme plutôt que la production à court terme
Le paradoxe d’une pédagogie séculaire battue par une fenêtre de chat
- Tous les manuels de physique proposent des exercices en fin de chapitre, et tous les professeurs de physique répètent la même chose
- « On n’apprend pas la physique en regardant quelqu’un d’autre résoudre les problèmes ; il faut prendre le crayon soi-même »
- Lire le corrigé et hocher la tête donne l’impression de comprendre, mais ce n’est pas comprendre
- Les étudiants qui échouent à l’examen le savent dans leur chair
- Dès que les LLM sont devenus pratiques, nous avons collectivement agi comme si nous avions oublié cette vérité
- La sérendipité ne naît pas de l’efficacité
- Elle naît du fait de passer assez de temps dans l’espace où vit le problème, de se salir les mains, de faire des erreurs que personne ne vous a demandées, et d’apprendre des choses que personne ne vous a demandé d’apprendre
Conclusion : ce n’est pas la machine qui inquiète, c’est nous
- Dans cinq ans, Alice demandera ses propres financements, choisira ses propres problèmes et encadrera ses propres étudiants
- Elle saura quelles questions poser et pourra, face à un nouveau jeu de données, sentir intuitivement que quelque chose cloche
- Bob ira probablement bien lui aussi : bon CV, peut-être un bon poste, utilisation d’une version 2031 de Claude pour produire des résultats qui auront l’apparence de la science
- Les machines vont bien. C’est nous qui m’inquiétons.
Aucun commentaire pour le moment.