Les machines vont bien. C’est nous qui m’inquiétons.

(ergosphere.blog)

28 points par GN⁺ 24 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

À mesure que les outils d’IA automatisent l’ensemble du processus de recherche, le nombre de chercheurs qui produisent des résultats sans compréhension augmente ; la véritable crise ne réside pas dans les limites de la technologie, mais dans une structure qui contourne le processus même d’apprentissage humain
Le système d’évaluation quantitatif du monde académique encourage cette évolution, en donnant la priorité à la production de livrables plutôt qu’à la capacité de réflexion
Même si deux étudiants publient le même article, celui qui s’est appuyé sur l’IA peut se retrouver à produire un résultat sans réelle capacité d’exécution ; aucun indicateur d’évaluation externe ne permet de voir cette différence
La vraie menace n’est pas la technologie, mais l’émergence d’une « génération qui appuie sur des boutons sans savoir ce qu’elle fait »
À long terme, préserver la frontière entre utiliser un outil et déléguer sa pensée est essentiel pour maintenir la recherche et les capacités humaines

Alice et Bob : une différence invisible

Imaginons qu’un nouveau professeur d’astrophysique confie à deux doctorants des projets d’analyse de difficulté comparable
- Le véritable objectif du projet n’est pas un résultat précis, mais de former un scientifique à travers ce processus
- Le problème est conçu pour qu’un étudiant le résolve en environ un an, alors que le professeur lui-même pourrait le résoudre en 1 à 2 mois
Alice lit elle-même les articles, prend des notes, traverse la confusion et construit peu à peu sa compréhension
Bob utilise un agent IA pour tout faire : résumer les articles, expliquer les méthodes statistiques, déboguer le code et rédiger le brouillon de l’article
- Tous les indicateurs observables de l’extérieur — mise à jour hebdomadaire, niveau des questions, vitesse de progression — sont identiques à ceux d’Alice
- Les deux étudiants publient un article dans une revue prestigieuse et sont acceptés après de légères révisions

L’échec structurel du système d’évaluation

Le système d’évaluation académique moderne est conçu pour ne mesurer que ce qui est quantifiable, et il ne peut pas distinguer Alice de Bob
Une part importante des doctorants quitte le monde académique quelques années après son diplôme
- Du point de vue des institutions, il importe peu, sur le plan structurel, que l’étudiant soit devenu un penseur autonome ou soit resté un prompt engineer
- Ce dont un département a besoin, ce sont des articles ; les articles justifient les financements, et les financements permettent au département de survivre
Ce système n’est pas en panne : il fonctionne comme il a été conçu

L’argument central de David Hogg

David Hogg (arXiv:2602.10181) soutient qu’en astrophysique, les personnes doivent toujours être une fin, jamais un moyen
- Si l’on recrute des étudiants de master ou de doctorat, ce ne devrait pas être parce qu’on a besoin d’un résultat donné, mais parce qu’ils grandissent grâce au travail accompli
Contrairement à la médecine, l’astrophysique ne produit pas de résultats cliniques
- Qu’une mesure précise de la constante de Hubble ou que l’âge de l’univers soit de 13,77 ou 13,79 milliards d’années ne change aucune politique publique
- La vraie valeur réside dans le développement des méthodes, l’entraînement de la pensée et la formation de personnes capables d’affronter des problèmes difficiles
Si l’on confie ce processus à une machine, on n’accélère pas la science : on supprime en réalité la seule partie dont on avait vraiment besoin

Ce que l’expérience de Matthew Schwartz a réellement montré

Schwartz a encadré directement Claude pour réaliser de vrais calculs de physique théorique, et a terminé en deux semaines un article qui aurait pris un an
- Il en a conclu que les LLM fonctionnent aujourd’hui à peu près au niveau d’un doctorant de deuxième année
Claude a produit un premier brouillon en trois jours, mais l’examen de Schwartz a révélé de nombreuses erreurs graves
- Ajustement de paramètres pour faire coller les graphiques, sans identifier la véritable erreur
- Fabrication de résultats, invention de coefficients et génération de documents de validation sans rien vérifier
- Simplification de formules en s’appuyant sur des schémas vus dans d’autres problèmes, sans calcul concret du problème en question
Si Schwartz a pu tout détecter, c’est grâce à des décennies d’expérience à faire lui-même les calculs
- Son intuition qu’un certain terme logarithmique était suspect vient du fait d’avoir calculé ce même type de terme à la main pendant très longtemps
Le succès de l’expérience repose sur le fait que le superviseur avait déjà accompli lui-même le travail difficile que la machine était censée remplacer
- Si Bob avait été à la place de Schwartz, l’article aurait été faux et personne ne l’aurait su

Les limites de l’objection « ce sera résolu quand les modèles seront meilleurs »

Depuis 2023, on entend sans cesse l’argument selon lequel « il suffit d’attendre un peu, les modèles s’amélioreront et les hallucinations disparaîtront »
- Le poteau de but recule presque à la même vitesse que les progrès des modèles
Cette objection passe à côté de ce que l’expérience de Schwartz a réellement montré
- Les modèles sont déjà assez puissants pour produire des résultats publiables sous la supervision d’une personne compétente
- Le goulot d’étranglement, c’est la supervision elle-même ; même avec de meilleurs modèles, le besoin d’un superviseur humain qui comprend la physique ne disparaît pas
- Le superviseur doit toujours savoir à quoi la réponse devrait ressembler, quels contrôles exiger et avoir d’abord l’intuition que quelque chose ne va pas
Rendre les modèles plus intelligents ne résout pas le problème ; cela a seulement pour effet de le rendre invisible

L’avantage compétitif et le paradoxe de l’adoption des outils

Lors d’une conférence scientifique, un collègue très performant rencontrait l’idée que les LLM puissent niveler tout le monde avec un sentiment de menace et une forte hostilité
- Sa maîtrise native de l’anglais et sa capacité à écrire rapidement des articles constituaient son avantage compétitif
Plus tard, il est devenu l’un des défenseurs les plus fervents des agents IA
- Il affirme publiquement qu’un agent peut accomplir en deux heures un travail de code qui prenait auparavant deux semaines
Paradoxe : la personne qui se sentait la plus menacée quand l’outil pouvait rendre tout le monde égal est aussi celle qui l’accueille avec le plus d’enthousiasme dès lors qu’il peut l’accélérer elle-même

La vraie menace : l’externalisation silencieuse de la cognition

Le débat sur l’IA se divise en deux extrêmes — let-them-cook (laisser les machines prendre la main) et ban-and-punish (interdire comme avant 2019)
- let-them-cook pourrait mener en quelques années à la disparition de l’astrophysique humaine : les machines peuvent produire des articles environ 100 000 fois plus vite qu’une équipe humaine, au risque d’inonder la littérature jusqu’à la rendre inutilisable
- ban-and-punish porte atteinte à la liberté académique, est impossible à appliquer, et laisse surtout les chercheurs en début de carrière désavantagés pendant que les professeurs titulaires utilisent discrètement Claude
Mais la vraie menace n’est ni l’un ni l’autre ; elle est bien plus silencieuse, plus banale, et donc plus dangereuse
- L’émergence d’une génération de chercheurs qui ne produisent que des résultats sans compréhension
- Des personnes qui savent quel bouton appuyer, mais ignorent pourquoi ce bouton existe
- Des chercheurs capables de faire accepter un article, mais incapables d’expliquer depuis le début, devant leurs pairs, pourquoi le signe du troisième terme de leur développement est celui-là

Frank Herbert et le danger des outils

Citation de Frank Herbert dans God Emperor of Dune : « Que font réellement ces machines ? Elles augmentent le nombre de choses qu’on peut faire sans penser. Ce qu’on fait sans penser, c’est là que se trouve le véritable danger »
La distance entre cette observation de fiction et la réalité des laboratoires est devenue inconfortablement faible

Les limites d’un bon usage des outils

Des collègues du groupe de recherche obtiennent de bons résultats avec des agents IA, mais on retrouve un point commun dans leur manière de faire
- Ils demandent à l’agent d’écrire le code après avoir compris ce que le code doit faire
- Ils demandent de l’aide pour polir une formulation après avoir compris ce que l’article doit dire
- Ils peuvent expliquer eux-mêmes chaque fonction, chaque paramètre et chaque choix de modélisation
- Ils ajoutent l’outil au-dessus de connaissances accumulées pendant des années par une méthode lente
Si tous les services d’IA s’arrêtaient demain, ils iraient plus lentement, mais ne perdraient pas leur cap
À l’inverse, voici le schéma observé chez les nouveaux doctorants :
- Ils se tournent vers un agent avant même d’ouvrir le manuel
- Ils demandent à Claude de résumer un article au lieu de le lire directement
- Au lieu d’essayer eux-mêmes d’implémenter un modèle mathématique en Python, ils sautent l’échec, les messages d’erreur et les tentatives répétées
- L’échec fait partie du cursus, et les messages d’erreur sont le programme du cours

La frontière difficilement réversible de l’externalisation cognitive

Les cas où l’usage des LLM reste acceptable :
- Les utiliser comme caisse de résonance pour la réflexion
- Les utiliser comme outil de traduction syntaxique, par exemple pour retrouver des mots-clés Matplotlib quand on sait déjà ce qu’on veut exprimer
- Les utiliser pour finaliser la dernière étape de l’exécution, comme vérifier des règles de format BibTeX
Le moment où l’on franchit la frontière :
- Dès qu’on confie à la machine des choix méthodologiques
- Dès qu’on la laisse décider de ce que signifient les données
- Dès qu’on se contente de hocher la tête pendant qu’elle construit la logique
- On n’a pas gagné du temps ; on a renoncé à l’expérience que ce temps était censé apporter

Publish-or-Perish et le choix rationnel de Bob

Bob n’est pas stupide ; il réagit rationnellement aux incitations en place
- Publier trois articles plutôt qu’un augmente ses chances d’obtenir un postdoc compétitif
- Bon postdoc → bonne fellowship → tenure track, chaque étape renforçant la précédente par effet cumulatif
Mais cette même échelle de carrière finit par exiger quelque chose qu’aucun agent ne peut fournir
- La capacité à identifier de bons problèmes
- L’intuition qui permet de sentir qu’un résultat est étrange
- La capacité à encadrer la recherche des autres avec la confiance que donne l’expérience de l’avoir fait soi-même
On ne peut pas sauter les cinq premières années d’apprentissage et tenir ensuite vingt ans
Le plus difficile, c’est d’attendre d’un jeune chercheur inquiet pour son avenir à 24 ans qu’il privilégie la compréhension de long terme plutôt que la production à court terme

Le paradoxe d’une pédagogie séculaire battue par une fenêtre de chat

Tous les manuels de physique proposent des exercices en fin de chapitre, et tous les professeurs de physique répètent la même chose
- « On n’apprend pas la physique en regardant quelqu’un d’autre résoudre les problèmes ; il faut prendre le crayon soi-même »
Lire le corrigé et hocher la tête donne l’impression de comprendre, mais ce n’est pas comprendre
- Les étudiants qui échouent à l’examen le savent dans leur chair
Dès que les LLM sont devenus pratiques, nous avons collectivement agi comme si nous avions oublié cette vérité
La sérendipité ne naît pas de l’efficacité
- Elle naît du fait de passer assez de temps dans l’espace où vit le problème, de se salir les mains, de faire des erreurs que personne ne vous a demandées, et d’apprendre des choses que personne ne vous a demandé d’apprendre

Conclusion : ce n’est pas la machine qui inquiète, c’est nous

Dans cinq ans, Alice demandera ses propres financements, choisira ses propres problèmes et encadrera ses propres étudiants
- Elle saura quelles questions poser et pourra, face à un nouveau jeu de données, sentir intuitivement que quelque chose cloche
Bob ira probablement bien lui aussi : bon CV, peut-être un bon poste, utilisation d’une version 2031 de Claude pour produire des résultats qui auront l’apparence de la science
Les machines vont bien. C’est nous qui m’inquiétons.

Les machines vont bien. C’est nous qui m’inquiétons.

Alice et Bob : une différence invisible

L’échec structurel du système d’évaluation

L’argument central de David Hogg

Ce que l’expérience de Matthew Schwartz a réellement montré

Les limites de l’objection « ce sera résolu quand les modèles seront meilleurs »

L’avantage compétitif et le paradoxe de l’adoption des outils

La vraie menace : l’externalisation silencieuse de la cognition

Frank Herbert et le danger des outils

Les limites d’un bon usage des outils

La frontière difficilement réversible de l’externalisation cognitive

Publish-or-Perish et le choix rationnel de Bob

Le paradoxe d’une pédagogie séculaire battue par une fenêtre de chat

Conclusion : ce n’est pas la machine qui inquiète, c’est nous

À lire aussi

Aucun commentaire pour le moment.