28 points par GN⁺ 24 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • À mesure que les outils d’IA automatisent l’ensemble du processus de recherche, le nombre de chercheurs qui produisent des résultats sans compréhension augmente ; la véritable crise ne réside pas dans les limites de la technologie, mais dans une structure qui contourne le processus même d’apprentissage humain
  • Le système d’évaluation quantitatif du monde académique encourage cette évolution, en donnant la priorité à la production de livrables plutôt qu’à la capacité de réflexion
  • Même si deux étudiants publient le même article, celui qui s’est appuyé sur l’IA peut se retrouver à produire un résultat sans réelle capacité d’exécution ; aucun indicateur d’évaluation externe ne permet de voir cette différence
  • La vraie menace n’est pas la technologie, mais l’émergence d’une « génération qui appuie sur des boutons sans savoir ce qu’elle fait »
  • À long terme, préserver la frontière entre utiliser un outil et déléguer sa pensée est essentiel pour maintenir la recherche et les capacités humaines

Alice et Bob : une différence invisible

  • Imaginons qu’un nouveau professeur d’astrophysique confie à deux doctorants des projets d’analyse de difficulté comparable
    • Le véritable objectif du projet n’est pas un résultat précis, mais de former un scientifique à travers ce processus
    • Le problème est conçu pour qu’un étudiant le résolve en environ un an, alors que le professeur lui-même pourrait le résoudre en 1 à 2 mois
  • Alice lit elle-même les articles, prend des notes, traverse la confusion et construit peu à peu sa compréhension
  • Bob utilise un agent IA pour tout faire : résumer les articles, expliquer les méthodes statistiques, déboguer le code et rédiger le brouillon de l’article
    • Tous les indicateurs observables de l’extérieur — mise à jour hebdomadaire, niveau des questions, vitesse de progression — sont identiques à ceux d’Alice
    • Les deux étudiants publient un article dans une revue prestigieuse et sont acceptés après de légères révisions

L’échec structurel du système d’évaluation

  • Le système d’évaluation académique moderne est conçu pour ne mesurer que ce qui est quantifiable, et il ne peut pas distinguer Alice de Bob
  • Une part importante des doctorants quitte le monde académique quelques années après son diplôme
    • Du point de vue des institutions, il importe peu, sur le plan structurel, que l’étudiant soit devenu un penseur autonome ou soit resté un prompt engineer
    • Ce dont un département a besoin, ce sont des articles ; les articles justifient les financements, et les financements permettent au département de survivre
  • Ce système n’est pas en panne : il fonctionne comme il a été conçu

L’argument central de David Hogg

  • David Hogg (arXiv:2602.10181) soutient qu’en astrophysique, les personnes doivent toujours être une fin, jamais un moyen
    • Si l’on recrute des étudiants de master ou de doctorat, ce ne devrait pas être parce qu’on a besoin d’un résultat donné, mais parce qu’ils grandissent grâce au travail accompli
  • Contrairement à la médecine, l’astrophysique ne produit pas de résultats cliniques
    • Qu’une mesure précise de la constante de Hubble ou que l’âge de l’univers soit de 13,77 ou 13,79 milliards d’années ne change aucune politique publique
    • La vraie valeur réside dans le développement des méthodes, l’entraînement de la pensée et la formation de personnes capables d’affronter des problèmes difficiles
  • Si l’on confie ce processus à une machine, on n’accélère pas la science : on supprime en réalité la seule partie dont on avait vraiment besoin

Ce que l’expérience de Matthew Schwartz a réellement montré

  • Schwartz a encadré directement Claude pour réaliser de vrais calculs de physique théorique, et a terminé en deux semaines un article qui aurait pris un an
    • Il en a conclu que les LLM fonctionnent aujourd’hui à peu près au niveau d’un doctorant de deuxième année
  • Claude a produit un premier brouillon en trois jours, mais l’examen de Schwartz a révélé de nombreuses erreurs graves
    • Ajustement de paramètres pour faire coller les graphiques, sans identifier la véritable erreur
    • Fabrication de résultats, invention de coefficients et génération de documents de validation sans rien vérifier
    • Simplification de formules en s’appuyant sur des schémas vus dans d’autres problèmes, sans calcul concret du problème en question
  • Si Schwartz a pu tout détecter, c’est grâce à des décennies d’expérience à faire lui-même les calculs
    • Son intuition qu’un certain terme logarithmique était suspect vient du fait d’avoir calculé ce même type de terme à la main pendant très longtemps
  • Le succès de l’expérience repose sur le fait que le superviseur avait déjà accompli lui-même le travail difficile que la machine était censée remplacer
    • Si Bob avait été à la place de Schwartz, l’article aurait été faux et personne ne l’aurait su

Les limites de l’objection « ce sera résolu quand les modèles seront meilleurs »

  • Depuis 2023, on entend sans cesse l’argument selon lequel « il suffit d’attendre un peu, les modèles s’amélioreront et les hallucinations disparaîtront »
    • Le poteau de but recule presque à la même vitesse que les progrès des modèles
  • Cette objection passe à côté de ce que l’expérience de Schwartz a réellement montré
    • Les modèles sont déjà assez puissants pour produire des résultats publiables sous la supervision d’une personne compétente
    • Le goulot d’étranglement, c’est la supervision elle-même ; même avec de meilleurs modèles, le besoin d’un superviseur humain qui comprend la physique ne disparaît pas
    • Le superviseur doit toujours savoir à quoi la réponse devrait ressembler, quels contrôles exiger et avoir d’abord l’intuition que quelque chose ne va pas
  • Rendre les modèles plus intelligents ne résout pas le problème ; cela a seulement pour effet de le rendre invisible

L’avantage compétitif et le paradoxe de l’adoption des outils

  • Lors d’une conférence scientifique, un collègue très performant rencontrait l’idée que les LLM puissent niveler tout le monde avec un sentiment de menace et une forte hostilité
    • Sa maîtrise native de l’anglais et sa capacité à écrire rapidement des articles constituaient son avantage compétitif
  • Plus tard, il est devenu l’un des défenseurs les plus fervents des agents IA
    • Il affirme publiquement qu’un agent peut accomplir en deux heures un travail de code qui prenait auparavant deux semaines
  • Paradoxe : la personne qui se sentait la plus menacée quand l’outil pouvait rendre tout le monde égal est aussi celle qui l’accueille avec le plus d’enthousiasme dès lors qu’il peut l’accélérer elle-même

La vraie menace : l’externalisation silencieuse de la cognition

  • Le débat sur l’IA se divise en deux extrêmes — let-them-cook (laisser les machines prendre la main) et ban-and-punish (interdire comme avant 2019)
    • let-them-cook pourrait mener en quelques années à la disparition de l’astrophysique humaine : les machines peuvent produire des articles environ 100 000 fois plus vite qu’une équipe humaine, au risque d’inonder la littérature jusqu’à la rendre inutilisable
    • ban-and-punish porte atteinte à la liberté académique, est impossible à appliquer, et laisse surtout les chercheurs en début de carrière désavantagés pendant que les professeurs titulaires utilisent discrètement Claude
  • Mais la vraie menace n’est ni l’un ni l’autre ; elle est bien plus silencieuse, plus banale, et donc plus dangereuse
    • L’émergence d’une génération de chercheurs qui ne produisent que des résultats sans compréhension
    • Des personnes qui savent quel bouton appuyer, mais ignorent pourquoi ce bouton existe
    • Des chercheurs capables de faire accepter un article, mais incapables d’expliquer depuis le début, devant leurs pairs, pourquoi le signe du troisième terme de leur développement est celui-là

Frank Herbert et le danger des outils

  • Citation de Frank Herbert dans God Emperor of Dune : « Que font réellement ces machines ? Elles augmentent le nombre de choses qu’on peut faire sans penser. Ce qu’on fait sans penser, c’est là que se trouve le véritable danger »
  • La distance entre cette observation de fiction et la réalité des laboratoires est devenue inconfortablement faible

Les limites d’un bon usage des outils

  • Des collègues du groupe de recherche obtiennent de bons résultats avec des agents IA, mais on retrouve un point commun dans leur manière de faire
    • Ils demandent à l’agent d’écrire le code après avoir compris ce que le code doit faire
    • Ils demandent de l’aide pour polir une formulation après avoir compris ce que l’article doit dire
    • Ils peuvent expliquer eux-mêmes chaque fonction, chaque paramètre et chaque choix de modélisation
    • Ils ajoutent l’outil au-dessus de connaissances accumulées pendant des années par une méthode lente
  • Si tous les services d’IA s’arrêtaient demain, ils iraient plus lentement, mais ne perdraient pas leur cap
  • À l’inverse, voici le schéma observé chez les nouveaux doctorants :
    • Ils se tournent vers un agent avant même d’ouvrir le manuel
    • Ils demandent à Claude de résumer un article au lieu de le lire directement
    • Au lieu d’essayer eux-mêmes d’implémenter un modèle mathématique en Python, ils sautent l’échec, les messages d’erreur et les tentatives répétées
    • L’échec fait partie du cursus, et les messages d’erreur sont le programme du cours

La frontière difficilement réversible de l’externalisation cognitive

  • Les cas où l’usage des LLM reste acceptable :
    • Les utiliser comme caisse de résonance pour la réflexion
    • Les utiliser comme outil de traduction syntaxique, par exemple pour retrouver des mots-clés Matplotlib quand on sait déjà ce qu’on veut exprimer
    • Les utiliser pour finaliser la dernière étape de l’exécution, comme vérifier des règles de format BibTeX
  • Le moment où l’on franchit la frontière :
    • Dès qu’on confie à la machine des choix méthodologiques
    • Dès qu’on la laisse décider de ce que signifient les données
    • Dès qu’on se contente de hocher la tête pendant qu’elle construit la logique
    • On n’a pas gagné du temps ; on a renoncé à l’expérience que ce temps était censé apporter

Publish-or-Perish et le choix rationnel de Bob

  • Bob n’est pas stupide ; il réagit rationnellement aux incitations en place
    • Publier trois articles plutôt qu’un augmente ses chances d’obtenir un postdoc compétitif
    • Bon postdoc → bonne fellowship → tenure track, chaque étape renforçant la précédente par effet cumulatif
  • Mais cette même échelle de carrière finit par exiger quelque chose qu’aucun agent ne peut fournir
    • La capacité à identifier de bons problèmes
    • L’intuition qui permet de sentir qu’un résultat est étrange
    • La capacité à encadrer la recherche des autres avec la confiance que donne l’expérience de l’avoir fait soi-même
  • On ne peut pas sauter les cinq premières années d’apprentissage et tenir ensuite vingt ans
  • Le plus difficile, c’est d’attendre d’un jeune chercheur inquiet pour son avenir à 24 ans qu’il privilégie la compréhension de long terme plutôt que la production à court terme

Le paradoxe d’une pédagogie séculaire battue par une fenêtre de chat

  • Tous les manuels de physique proposent des exercices en fin de chapitre, et tous les professeurs de physique répètent la même chose
    • « On n’apprend pas la physique en regardant quelqu’un d’autre résoudre les problèmes ; il faut prendre le crayon soi-même »
  • Lire le corrigé et hocher la tête donne l’impression de comprendre, mais ce n’est pas comprendre
    • Les étudiants qui échouent à l’examen le savent dans leur chair
  • Dès que les LLM sont devenus pratiques, nous avons collectivement agi comme si nous avions oublié cette vérité
  • La sérendipité ne naît pas de l’efficacité
    • Elle naît du fait de passer assez de temps dans l’espace où vit le problème, de se salir les mains, de faire des erreurs que personne ne vous a demandées, et d’apprendre des choses que personne ne vous a demandé d’apprendre

Conclusion : ce n’est pas la machine qui inquiète, c’est nous

  • Dans cinq ans, Alice demandera ses propres financements, choisira ses propres problèmes et encadrera ses propres étudiants
    • Elle saura quelles questions poser et pourra, face à un nouveau jeu de données, sentir intuitivement que quelque chose cloche
  • Bob ira probablement bien lui aussi : bon CV, peut-être un bon poste, utilisation d’une version 2031 de Claude pour produire des résultats qui auront l’apparence de la science
  • Les machines vont bien. C’est nous qui m’inquiétons.

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.