Ce que j’ai appris après m’être laissé berner par le battage autour de l’IA pour la science

(understandingai.org)

3 points par GN⁺ 2025-05-21 | 1 commentaires | Partager sur WhatsApp

L’auteur, qui faisait de la recherche en physique des plasmas à Princeton, a réorienté ses travaux en 2018 en pensant que l’IA pourrait accélérer la recherche en physique, mais en pratique, l’IA pour résoudre des EDP s’est révélée bien plus fragile qu’attendu
Les PINN semblaient être une approche simple et générale, mais il suffisait de modifier légèrement des exemples faciles pour qu’il devienne difficile d’obtenir une solution exacte, et même le réglage fin ne permettait pas d’assurer la stabilité
En examinant 76 articles sur les EDP en mécanique des fluides, l’auteur a constaté que parmi ceux affirmant faire mieux que les méthodes numériques standard, 60 articles, soit 79 %, utilisaient des baselines faibles, et que les grands gains de vitesse reposaient sur des comparaisons inéquitables
L’usage de l’IA en science est passé de 2 % en 2015 à près de 8 % en 2022, mais cette hausse pourrait être davantage liée aux incitations en matière de citations, de carrière et de financement qu’à la science elle-même
L’IA peut produire des résultats en repliement des protéines, en prévision météorologique et en découverte de médicaments, mais l’idée générale selon laquelle elle accélère révolutionnairement la science doit être examinée avec prudence à cause du biais du survivant, des fuites de données, des baselines faibles et du cherry-picking

Pourquoi j’ai quitté la physique des plasmas pour l’IA

En 2018, alors qu’il était en deuxième année de doctorat en physique des plasmas à Princeton, l’auteur a déplacé le centre de ses recherches vers le machine learning
- Il n’avait pas de projet précis en tête, mais pensait qu’accélérer la recherche en physique grâce à l’IA permettrait d’avoir plus d’impact
- Il reconnaît aussi que les salaires élevés du secteur de l’IA faisaient partie de sa motivation
Il a ensuite choisi comme sujet de recherche le problème de la résolution des équations aux dérivées partielles (EDP) par l’IA, que Yann LeCun avait qualifié de “pretty hot topic”
Les EDP sont des équations mathématiques servant à modéliser des systèmes physiques, et elles sont essentielles en physique computationnelle et en simulation d’ingénierie
- Le laboratoire de l’auteur utilisait des EDP pour modéliser le comportement des plasmas à l’intérieur des réacteurs de fusion et dans le milieu interstellaire
Les modèles d’IA utilisés pour résoudre des EDP sont des modèles de deep learning spécialisés, plus proches d’AlphaFold que de ChatGPT

Les fragilités révélées par les expériences sur les PINN

La première méthode testée fut le physics-informed neural network (PINN)
- Au lieu de représenter la solution d’une EDP sur une grille de pixels, un PINN représente cette solution au moyen d’un réseau neuronal et intègre l’équation dans la fonction de perte
- L’article fondateur sur les PINN affirmait leur efficacité sur des problèmes classiques en mécanique des fluides, en mécanique quantique, dans les systèmes réaction-diffusion et les ondes non linéaires en eau peu profonde, et il était déjà cité des centaines de fois
L’approche paraissait simple, élégante et générale, mais les expériences réelles ont raconté une autre histoire
- En remplaçant l’exemple influent de 1D Burgers’ du premier article par une autre EDP simple, 1D Vlasov, il n’a pas obtenu de solution paraissant exacte
- Après beaucoup de réglages, il a obtenu des résultats plausibles, mais pour des EDP un peu plus complexes comme 1D Vlasov-Poisson, il n’a pas réussi à obtenir de solution satisfaisante
- Un ami dans une autre université lui a aussi dit ne pas avoir obtenu de bons résultats avec les PINN
Les auteurs de l’article original sur les PINN semblent eux aussi avoir observé que certains réglages pouvaient produire des résultats impressionnants sur une équation et échouer sur une autre
- Pourtant, l’article ne présentait aucun cas d’échec des PINN
- L’auteur lui-même n’a pas publié ses expériences ratées dans un article, seulement dans un poster de conférence peu connu

Les leçons laissées par les PINN et leur évaluation actuelle

Première leçon : il ne faut pas prendre les résultats de recherche en IA au pied de la lettre
- La plupart des scientifiques ne cherchent pas à tromper qui que ce soit, mais les incitations à montrer des résultats favorables sont fortes, ce qui peut induire le lecteur en erreur
- Il en est venu à penser que plus un article à fort impact montre des résultats impressionnants, plus il faut le regarder avec scepticisme
Deuxième leçon : les cas où les méthodes d’IA échouent sont très rarement publiés
- Il a fallu deux ans avant qu’un article sur les modes d’échec des PINN paraisse, et cet article a désormais plus de 1 000 citations
- Cela suggère que beaucoup de chercheurs ont probablement rencontré des problèmes similaires avec les PINN
Troisième conclusion : les PINN n’étaient pas l’approche que l’auteur voulait utiliser
- Il juge les PINN simples et élégants, mais trop instables, trop capricieux et trop lents
L’article original sur les PINN cumule aujourd’hui 14 000 citations, six ans après sa publication
- Selon l’auteur, c’est l’un des articles de calcul numérique les plus cités du XXIe siècle, et il pourrait devenir d’ici un à deux ans le deuxième article le plus cité de toute l’histoire du domaine
Pour la résolution directe des EDP, l’idée que les PINN ne sont généralement pas compétitifs face aux méthodes numériques standard est désormais largement acceptée, mais leurs performances sur les problèmes inverses (inverse problems) restent débattues
- Leurs défenseurs affirment que les PINN sont particulièrement efficaces pour les problèmes inverses
- Certains chercheurs contestent fortement cette idée
- L’auteur ne sait pas qui a raison et pense qu’un jour les PINN pourraient être vus comme une immense bulle de citations

L’optimisme excessif nourri par des baselines faibles

Dans sa thèse, l’auteur s’est concentré sur des modèles de deep learning qui traitent la solution d’une EDP comme un ensemble de pixels sur une grille ou un graphe, à la manière des solveurs traditionnels
- Cette approche lui semblait plus prometteuse que les PINN pour les EDP temporelles complexes qui intéressaient son laboratoire
- Plusieurs articles affirmaient résoudre des EDP plusieurs ordres de grandeur plus vite que les méthodes numériques standard
Les cas d’EDP en mécanique des fluides, notamment pour les équations de Navier-Stokes, ont particulièrement encouragé l’auteur et son directeur de thèse
- Les équations décrivant les plasmas dans un réacteur de fusion ont une structure mathématique similaire, ce qui laissait espérer des gains de vitesse comparables
- En théorie, cela pourrait permettre de simuler des systèmes plus vastes, d’optimiser plus vite des conceptions et d’accélérer la recherche
Mais la fiabilité et la robustesse des modèles d’IA pouvaient constituer un problème majeur
- Si des simulations plus rapides sont moins fiables, il faut vérifier si ce compromis en vaut la peine
- La plupart des tentatives pour rendre les modèles plus fiables ont échoué, ce qui l’a amené à douter du potentiel même de l’IA pour accélérer la résolution des EDP
Des articles très en vue affirmaient que l’IA résolvait les équations de Navier-Stokes plusieurs ordres de grandeur plus vite que les méthodes numériques standard, mais la baseline utilisée n’était pas la méthode numérique la plus rapide
- Une fois comparée à des méthodes numériques plus avancées, l’IA n’était pas plus rapide, ou seulement légèrement

Résultat de l’examen de 76 articles : 79 % utilisaient des baselines faibles

L’auteur et son directeur de thèse ont mené une revue systématique des travaux utilisant l’IA pour résoudre des EDP en mécanique des fluides et ont publié un article
Parmi les 76 articles affirmant surpasser les méthodes numériques standard, 60, soit 79 %, utilisaient des baselines faibles
- soit ils ne comparaient pas à des méthodes numériques plus avancées
- soit ils ne réalisaient pas la comparaison dans les mêmes conditions
Part des baselines faibles : {p:79}
Tous les articles montrant de grands gains de vitesse comparaient à des baselines faibles
- Plus le résultat semblait impressionnant, plus il paraissait probable qu’il repose sur une comparaison inéquitable
Cette revue a aussi confirmé l’existence d’un biais de reporting (reporting bias)
- Les chercheurs ont tendance à peu rapporter les résultats négatifs
- Les baselines faibles produisent des résultats excessivement positifs, et le biais de reporting conduit à une sous-déclaration des résultats négatifs
L’article a déclenché un débat autour de l’IA en sciences et en ingénierie computationnelles
- Lorena Barba y voit une preuve venant étayer les inquiétudes sur le battage autour de l’IA et un optimisme non scientifique
- Stephan Hoyer, de Google Research, l’a qualifié de bon résumé expliquant pourquoi il est passé de l’IA pour les EDP à la prévision météo et à la modélisation climatique
- Johannes Brandstetter a rétorqué que l’IA pouvait donner de meilleurs résultats dans des applications industrielles plus complexes et que l’avenir du domaine restait prometteur

Le type de validation nécessaire dans le domaine des EDP

L’IA pourrait un jour se révéler utile dans certaines applications liées à la résolution des EDP
Pour l’instant, il y a peu de raisons d’être optimiste
- Les méthodes d’IA n’ont pas les garanties théoriques des méthodes numériques standard
- Elles manquent aussi de robustesse validée empiriquement
Deux directions demandent davantage d’efforts
- des recherches visant à atteindre un niveau de fiabilité comparable à celui des méthodes numériques
- du red teaming pour tester agressivement les méthodes d’IA
Les organismes financeurs devraient inciter les scientifiques à créer des problèmes de référence pour les EDP
- L’exemple proposé est CASP, la compétition biennale qui, depuis 30 ans, coordonne et concentre les efforts de recherche dans le domaine du repliement des protéines

Cas réels où l’IA a accéléré la science, et leurs limites

Le repliement des protéines est le cas emblématique d’innovation scientifique portée par l’IA
- Il est présenté comme un exemple relié au communiqué de presse du prix Nobel de chimie 2024
Il existe aussi d’autres cas de réussite
- Prévision météorologique : les prévisions par IA ont atteint une précision jusqu’à 20 % supérieure à celle des prévisions traditionnelles fondées sur la physique, mais leur résolution reste faible
- Découverte de médicaments : des données préliminaires montrent que les médicaments découverts par l’IA réussissaient mieux en phase 1 clinique, mais pas en phase 2
- Si cette tendance se maintient, le taux global de succès jusqu’à l’approbation d’un médicament pourrait presque doubler
Les entreprises d’IA, le monde académique, les agences publiques et les médias présentent de plus en plus l’IA non plus comme un simple outil scientifique utile, mais comme une technologie susceptible d’avoir un “transformational impact” sur la science
Les LLM actuels, selon les termes de DeepMind, ont encore du mal avec la créativité profonde et le raisonnement sur lesquels s’appuient les scientifiques humains
Si un système d’IA hypothétiquement très avancé pouvait un jour automatiser entièrement le processus scientifique, il transformerait et accélérerait la science, mais l’auteur ne s’attend ni à ce que cela arrive bientôt, ni même à ce que cela arrive réellement

Pourquoi les scientifiques adoptent l’IA

Le simple fait que l’usage de l’IA progresse en science ne suffit pas pour conclure qu’elle y est utile
Les raisons qui poussent les scientifiques vers l’IA peuvent tenir au fait qu’elle profite davantage aux scientifiques eux-mêmes qu’à la science
- L’auteur pensait sincèrement en 2018 que l’IA pourrait être utile à la physique des plasmas, mais les salaires élevés, les bonnes perspectives d’emploi et le prestige académique étaient aussi de fortes motivations
- Selon lui, les dirigeants d’instituts s’intéressaient souvent davantage au potentiel de financement de l’IA qu’aux considérations techniques
Des travaux ultérieurs suggèrent que les scientifiques utilisant l’IA ont davantage de chances de publier des articles très cités et reçoivent en moyenne trois fois plus de citations
Même lorsque l’IA produit des résultats impressionnants en science, cela ne signifie pas nécessairement qu’elle a effectivement accompli quelque chose d’utile pour la science
- Souvent, elle ne fait que montrer un potentiel qui pourrait devenir utile plus tard
Les scientifiques travaillant sur l’IA procèdent souvent à rebours : au lieu de chercher un problème puis une solution, ils supposent d’abord que l’IA est la solution, puis cherchent un problème à lui faire résoudre
- Cette logique de “hammer in search of a nail” peut mener à des problèmes déjà résolus ou à des problèmes qui ne produisent pas de nouvelles connaissances scientifiques

Biais du survivant et crise de la reproductibilité

Pour évaluer le succès de l’IA-for-science, il faut regarder la science réelle, mais la littérature scientifique seule est difficile à croire sur parole
Premier problème : le biais du survivant (survivorship bias)
- Il est souvent reproché à la recherche en IA de presque jamais publier de résultats négatifs
- Quand les cas d’échec disparaissent, toute tentative d’évaluer l’impact de l’IA sur la science se trouve déformée
Cela ressemble à un problème bien connu dans la crise de la réplication
- Quand les résultats non statistiquement significatifs sont filtrés hors de la littérature, on surestime par exemple l’effet d’un traitement
- Dans la distribution des valeurs z en recherche médicale, une forte discontinuité autour de -1,96 et 1,96 suggère que les résultats sous le seuil de significativité n’ont pas été publiés, ou que les données ont été ajustées
En IA-for-science, le critère de sélection n’est pas la significativité statistique, mais plutôt le fait que la méthode proposée ait battu d’autres approches ou réussi une nouvelle tâche
- Les cas de réussite de l’IA sont donc souvent rapportés, tandis que les résultats non concluants ne sont presque jamais publiés
Arvind Narayanan et Sayash Kapoor, de Princeton, ont dressé une liste de fautes méthodologiques, appelée fuite de données (data leakage), à partir de 648 articles couvrant 30 domaines
- Dans chaque cas, la fuite de données conduisait à des résultats excessivement optimistes
- Ils estiment que la science fondée sur l’IA fait face à une crise de la reproductibilité

Les quatre pièges qui fabriquent un optimisme excessif

Même les cas de réussite publiés peuvent conduire à surestimer le potentiel scientifique de l’IA
Les détails et la gravité varient selon les domaines, mais les principaux pièges se répartissent en quatre catégories
- Fuite de données
  - Quand les données d’entraînement et d’évaluation sont mélangées de manière incorrecte, les performances du modèle paraissent meilleures qu’elles ne le sont réellement
- Baselines faibles
  - Si l’on compare l’IA non pas aux meilleures méthodes numériques du moment, mais à des comparateurs faibles, l’écart de performance est exagéré
- Cherry-picking
  - Si l’on ne montre que les configurations qui réussissent, les modes d’échec et les limites d’application disparaissent de la littérature
- Mauvais reporting
  - Le fait que ceux qui évaluent les modèles d’IA aient aussi un intérêt dans cette évaluation reste un problème central de conflit d’intérêts
  - DeepMind a affirmé avoir découvert en 2023 2,2 millions de structures cristallines et multiplié d’un ordre de grandeur le nombre de matériaux stables connus de l’humanité
  - Des chercheurs en science des matériaux ont ensuite analysé ces composés et les ont qualifiés de “mostly junk”, suggérant poliment que l’article ne rapportait pas réellement de nouveaux matériaux
  - Un article du doctorant du MIT Aidan Toner-Rodgers sur la découverte de nouveaux matériaux par IA figurait d’abord parmi les cas de réussite dans un brouillon, mais a été retiré après que le MIT a annoncé vouloir le rétracter pour des inquiétudes liées à l’intégrité de la recherche
  - Les soupçons explicites de fraude sont différents des problèmes méthodologiques plus subtils évoqués dans l’article, mais le fait que ce papier ait reçu une forte attention médiatique montre la variété des incitations à exagérer l’efficacité des méthodes d’IA

Conclusion : davantage un outil progressif et inégal qu’une révolution

L’usage de l’IA dans la recherche scientifique augmente rapidement
- Dans l’ensemble des publications scientifiques, la part de l’IA est passée de 2 % en 2015 à près de 8 % en 2022
- Taux d’usage de l’IA : {l:2,8}
- L’adoption progresse rapidement non seulement en informatique, mais aussi en physique, chimie, biologie, médecine et sciences sociales
On peut reconnaître que l’IA est capable de produire des percées scientifiques
- L’inquiétude porte sur l’ampleur et la fréquence de ces percées
- Il reste incertain qu’elle ait réellement montré un potentiel suffisant pour justifier un déplacement massif des talents, de la formation, du temps et des financements vers un paradigme unique
Comme chaque discipline scientifique fait l’expérience de l’IA différemment, il faut se garder des généralisations
Malgré cela, trois leçons tirées de l’expérience de l’auteur paraissent valables dans plusieurs domaines
- La hausse de l’adoption de l’IA s’explique en partie par le fait qu’elle bénéficie davantage aux scientifiques qu’à la science
- Comme les résultats négatifs sont presque jamais publiés, l’IA-for-science subit un biais du survivant
- Les résultats positifs publiés tendent à produire une vision excessivement optimiste du potentiel de l’IA
On ne sait pas si l’IA inversera le déclin de la productivité scientifique et la stagnation du progrès scientifique
- Sauf percée majeure vers une IA avancée, l’IA semble plus proche d’un outil ordinaire au service d’un progrès scientifique progressif et inégal que d’un outil révolutionnaire

1 commentaires

GN⁺ 2025-05-21

Avis sur Hacker News

Article intéressant. Il y a toujours un risque qu’une technique émergente reçoive une attention excessive par rapport à sa valeur réelle.
La phrase clé du texte est celle-ci : « la plupart des scientifiques n’essaient pas de tromper qui que ce soit, mais comme ils ont une forte incitation à présenter des résultats favorables, le lecteur risque malgré tout d’être induit en erreur ». Comprendre dans quelle structure d’incitations les gens s’expriment aide souvent à interpréter ce qu’ils disent.
- Certaines personnes ont compris qu’en ajoutant le mot IA, on pouvait gagner beaucoup d’argent et obtenir des financements de recherche. Mais au fond, j’ai l’impression que n’importe quel logiciel contient plus ou moins de machine learning, que cela n’a rien de nouveau et que les implémentations actuelles ne sont ni particulièrement impressionnantes ni exactes.
Cela semble surtout répéter un problème déjà ancien du monde académique. Il ne s’agit plus de rechercher la vérité, mais de se concentrer sur le nombre de citations et le carriérisme ; l’IA n’est qu’un sujet de plus où cela se produit.
- Je ne veux pas généraliser, mais en travaillant avec plusieurs centres HPC en Allemagne, je vois beaucoup de gens évincés de la physique s’y regrouper, et une part importante des financements IA distribués semble être absorbée par eux. Résultat : beaucoup de projets ML4Science voient le jour.
  Personnellement, je trouve cela regrettable. Les centres HPC ne sont pas là uniquement pour les physiciens et, surtout en Allemagne, s’il y a des financements pour l’IA, je pense qu’il faudrait faire davantage de recherche fondamentale en IA.
- Pour être juste, je vois plutôt le problème du carriérisme comme un effet secondaire du fait que le monde académique s’est laissé davantage séduire par le secteur privé, en héritant aussi de ses travers.
  S’il y a une chose que j’ai apprise en travaillant comme développeur logiciel, c’est que toutes les décisions sont prises d’un point de vue carriériste et égoïste. Ce qui compte n’est pas ce qui est le mieux, mais ce qui impressionne le plus et fait avancer la personne. Une fois le travail terminé, ce n’est plus son problème, et en réalité il est difficile de leur en vouloir. Cette façon de penser est tellement répandue que si vous n’y participez pas, vous passez pour le pigeon. Les autres le feront, et finiront par vous dépasser. Le résultat sera le même, mais vous serez le seul à être désavantagé.
- Je ne vois pas en quel sens on peut interpréter cette histoire comme « ce n’est plus une recherche de la vérité ». Au contraire, n’est-ce pas un exemple très clair où l’on a cherché et trouvé la vérité ?
- Je ne comprends vraiment pas pourquoi il y a « plus » ici.
J’ai eu la chance de pouvoir tester quelques solveurs d’analyse structurelle de type FEM basés sur l’IA.
Même dans le meilleur des cas, pour des problèmes linéaires à petites déformations, c’est tout juste correct. On obtient en environ 30 secondes une solution assez approximative, là où un modèle permet d’obtenir un résultat proche de la solution exacte en à peu près 5 minutes. Dès qu’on commence à ajouter des éléments non linéaires, tout s’effondre.
Cela peut suffire pour des choix conceptuels de très haut niveau, mais même là, ce n’est pas fameux. Je suis assez convaincu que certains ne sont en fait guère plus que des détecteurs de courbure : les lignes droites en bleu, les zones à forte courbure en rouge, puis interpolation du reste.
- Est-ce qu’on pourrait utiliser ce genre de modèle comme préconditionneur pour une méthode itérative ?
- Cela ressemble alors davantage à un solveur de « second principe ». C’est une structure qui ne peut pas synthétiser quelque chose qu’elle n’a jamais vu auparavant.
Je ne suis pas du tout un défenseur de l’IA, mais le fait que les résultats négatifs ne soient pas publiés et que tout le monde exagère ses résultats dans les articles de recherche n’est malheureusement pas propre à l’IA. C’est le résultat de la manière dont les scientifiques sont évalués et de l’industrie de l’édition scientifique, qui recherche désespérément son audience comme les médias traditionnels.
Quoi qu’il en soit, l’hiver n’est-il pas en train d’arriver ?
- Oui, ce n’est pas un problème propre à l’IA. Mais dans les articles sur l’IA, on voit souvent des formulations qui signifient en réalité : « si l’on met 1 000 milliards de GPU et qu’on fait tourner ça éternellement, on obtient {benchmark magique} ». Ou bien : « si vous l’évaluez sur notre jeu de données réel ultrasecret, que nous prétendons fournir sur demande mais dont nous ignorerons en pratique toute demande, vous verrez un graphique montrant à quel point nous sommes intelligents ».
  Bien sûr, il s’agit souvent d’articles destinés à prendre date, mais quand ce genre d’article vient de grandes entreprises, on ne peut pas simplement l’ignorer même s’il comporte des défauts manifestes.
  Au final, c’est une course aux ressources. En tant qu’ancien chercheur dans une université au budget limité, nous ne pouvons pas rivaliser. On nous force en quelque sorte à croire des chiffres transmis dans la littérature comme des « benchmarks », sans reproductibilité.
- Il y a un peu plus de 15 ans, j’ai publié mes premiers articles sur des applications pratiques de l’IA, puis je suis passé à un autre domaine avant d’y être récemment ramené.
  Je suis d’accord pour dire que c’est un problème de la science dans son ensemble, mais l’IA semble attirer un nombre particulièrement élevé de chercheurs en quête de prestige et d’argent. D’après mon expérience limitée, les affirmations exagérées et le cherry-picking des données y paraissent plus extrêmes, et même les chercheurs responsables finissent par exagérer un peu pour rester compétitifs.
- L’IA n’est que l’aimant à hype surchauffé du moment, ce qui rend les fissures plus visibles.
- Mais l’IA facilite l’écriture d’articles qui ont l’air plausibles.
Je ne comprends pas bien pourquoi, sur des sites comme HN, les gens sont aussi divisés dans leur perception de l’IA/ML
Je n’avais jamais vu ça auparavant. Il n’existait pratiquement pas de système ni de méthode capable de faire des choses comme générer du code à partir d’une saisie textuelle
La semaine dernière encore, j’ai demandé un script de segmentation d’images avec une interface utilisateur basique, et Claude me l’a produit en moins d’une minute
On peut citer énormément d’exemples qu’on pourrait qualifier de révolutionnaires. Toute la pile de génération d’images est entièrement nouvelle
Ce billet de blog est suffisamment équitable, et il est vrai qu’il y a de la surchauffe autour de ce sujet. Mais ne serait-ce que pour tous les chercheurs qui doivent écrire du code pour leurs travaux, l’IA peut déjà les rendre beaucoup plus efficaces
Plus largement, je pense que nous sommes entrés dans une nouvelle ère. Une ère où l’on prend de nouveau les données très au sérieux. Il y a quelques années, on disait « Internet n’oublie jamais », mais on s’est vite rendu compte qu’Internet aussi commençait à oublier. Google supprimait des pages, retirait la fonction de cache, et donnait l’impression de ne plus vraiment s’en soucier faute de savoir quoi faire des données
Puis l’IA est arrivée, et non seulement les données sont redevenues reines, mais nous sommes désormais en plein dans l’ère du renforcement. Donnez un retour, et le système l’intègre dans son apprentissage
Le sujet IA/ML est abordé sous tous les angles : matériel, algorithmes, cas d’usage, données, outils, protocoles, etc. Nous sommes en train de l’intégrer, de construire pour lui et par-dessus lui ; cela prend juste un peu de temps. Mais le rythme des progrès reste follement haletant
Il faudra attendre quelques années pour savoir s’il existe vraiment un plafond. Pour expérimenter beaucoup plus sur les architectures et les algorithmes d’IA, il nous faut davantage de GPU et de plus grands datacenters. Le goulot d’étranglement est clair. Même les grandes entreprises entraînent un gros modèle pendant des semaines, voire des mois
- Sur le passage « La semaine dernière encore, j’ai demandé un script de segmentation d’images avec une interface utilisateur basique, et Claude me l’a produit en moins d’une minute », de notre point de vue, cela ressemble surtout à copier-coller Stack Overflow d’une manière élégante. Donc ça sonne un peu comme : « J’ai demandé à Google les restaurants à proximité et il les a trouvés en 500 ms. Mon C64 ne savait pas faire ça »
  C’est impressionnant et réellement utile, oui. Mais cela donne l’impression d’avoir « appris à explorer le monde réel pour résoudre tous les problèmes connexes », alors que ce qui a réellement été résolu, c’est « faire une recherche élégante dans une base de données SIG ». Une fois la nouveauté dissipée, on commence à voir la réalité plutôt que ce qu’on imaginait
  Pour rendre le point plus clair : quand vous dites « Claude l’a généré », ce que vous imaginez, c’est que l’IA a « pensé », construit une ontologie, raisonné dessus et conclu que ce script était la bonne sortie. Ce qui s’est réellement passé, c’est que l’entrée était corrélée à cette sortie selon des motifs observés dans des milliers de milliards d’exemples. Pas d’ontologie, pas de raisonnement. Bien sûr, cela reste impressionnant et très utile, mais avec le temps l’effet de nouveauté s’estompera. Les limites sont déjà évidentes
- Dire « je ne comprends pas pourquoi, sur des sites comme HN, les gens sont aussi divisés dans leur perception de l’IA/ML », c’est oublier que, de leur point de vue, ce sont tous des acteurs rationnels. Ceux qui promeuvent l’IA comme ceux qui relativisent la surchauffe ont chacun de bonnes raisons
  Il y a des raisons de voir cette nouvelle technologie comme une rupture, et des raisons de se méfier du vol massif de données et du mépris de la vie privée
  Il faut d’abord reconnaître et respecter le fait qu’il existe des opinions diverses sur n’importe quel sujet. Il faut se retirer un instant soi-même de l’équation et comprendre le camp d’en face. Vraiment le comprendre
  Il faut marcher longtemps dans les chaussures de quelqu’un d’autre
- À propos de l’affirmation « ne serait-ce que pour tous les chercheurs qui doivent écrire du code pour leurs travaux, l’IA peut déjà les rendre beaucoup plus efficaces », ce dont les scientifiques ont besoin, ce n’est pas d’efficacité, mais de justesse. Les bugs logiciels étaient déjà une cause majeure d’erreurs scientifiques et de manque de reproductibilité ; par exemple, il y a ce cas : https://www.vice.com/en/article/a-code-glitch-may-have-cause...
  La qualité de la programmation dans les milieux de recherche est notoirement inégale, comme dans l’industrie, mais en recherche, une erreur minime peut ruiner les résultats de toute une étude. Dans un environnement de laboratoire, on ne peut pas écrire du logiciel comme un peintre impressionniste, ni comme sa version IA. Il faut réellement savoir ce que l’on saisit
  Si l’exactitude vous importe peu, l’IA peut vous rendre plus efficace. Elle peut être formidable pour créer l’image d’un événement de beach-volley estival, mais c’est une idée désastreuse pour écrire du code dans un contexte scientifique
- À l’inverse, le récit selon lequel « l’IA va révolutionner la science » semble aller bien au-delà de ce que les preuves permettent d’étayer
- HN est toujours divisé entre « à quel point la technologie actuellement en surchauffe est réelle, et à quel point elle est exagérée »
  J’ai vu ce genre de situation de nombreuses fois, et je me suis aussi retrouvé dans des camps différents selon la technologie et le moment
  Pour moi, c’est une scène très familière
Au début, l’article semble suggérer que l’IA dans l’ensemble des sciences, ou du moins dans le domaine de l’auteur, n’est que du battage médiatique. Mais la critique semble viser une architecture précise, les PINN, et à la fin il dit aussi avoir utilisé avec succès d’autres modèles de deep learning pour calculer des EDP plus rapidement que les méthodes numériques traditionnelles
- Le problème est bien plus large que les PINN. Le fait que les PINN soient médiocres est largement connu depuis longtemps. Mais l’échec général de l’usage du machine learning pour des problèmes de physique est beaucoup plus répandu
  Le machine learning brille généralement quand on dispose d’assez nombreuses données expérimentales sur un domaine relativement étroit. Les potentiels interatomiques par machine learning, qui existent depuis les années 1990, en sont un exemple. La modélisation météo pourrait aussi entrer dans cette catégorie, mais je ne veux pas me prononcer là-dessus. Ou bien quand il y a une quantité absurde de données et qu’on entraîne un modèle vraiment gigantesque. C’est ce que nous appelons l’IA. C’est aussi, fondamentalement, la raison du succès d’AlphaFold, et AlphaFold ne donne pas non plus de bons résultats si on lui fournit des entrées très éloignées de tout point de ses données d’entraînement
  Mais la plupart des usages du machine learning pour des problèmes de physique se situent quelque part entre les deux. Les données expérimentales sont rares, et les données de simulation sont trop coûteuses à générer pour être suffisantes. Les modèles ne sont pas assez grands non plus, car s’ils le sont trop, l’inférence devient de toute façon lente. Et malgré cela, on attend de ces modèles qu’ils apprennent un très large éventail de phénomènes physiques
  Ensuite, tout le monde monte dans le train de la hype. Parce que c’est trop facile d’essayer. Tout le monde obtient les mêmes résultats nuls, mais publie quand même. Si le labo ou le PI est assez connu, ou si le problème est formulé de manière originale et avec un vernis scientifique ou mathématique, ça peut passer dans de bonnes revues ou conférences et être beaucoup cité. Mais au bout du compte, le résultat est le même : on reproduit plus ou moins les données d’entraînement, et on conclut que le problème de généralisation devra être étudié davantage par quelqu’un d’autre
- L’auteur a publié un article complet proposant une analyse systématique de plusieurs modèles. Il y a aussi une section dédiée à cela. Donc ce n’est pas seulement une histoire de PINN
- Remplacez les PINN par n’importe quelle solution d’« IA » et ce serait encore survendu
  Jusqu’ici, la seule évaluation réaliste de l’« IA » consiste à reconnaître qu’elle sert surtout à faire sauter à un expert une partie du travail ennuyeux, et qu’il faut vérifier trois fois la sortie
Le passage disant qu’« après plusieurs semaines d’échecs, j’ai envoyé un message à un ami dans une autre université, qui avait aussi essayé les PINN sans obtenir de bons résultats » n’a pas directement grand-chose à voir avec l’IA, mais il me rappelle une leçon que j’ai apprise beaucoup trop tard en faisant de la recherche à l’université : la collaboration continue est importante. Elle évite de repasser par des impasses où d’autres se sont déjà cassé les dents
- On pourrait aussi y voir la nécessité pour les chercheurs de publier les expériences qui échouent
- C’est une autre raison pour laquelle l’idée d’agents d’IA pour la science ne m’a jamais paru très sensée. La recherche est un ensemble d’activités extrêmement collaboratives. À quel point un chercheur peut-il être excellent s’il fait très bien la revue de littérature, mais ne parle réellement à personne et ne va jamais à des conférences ?
L’analyse est excellente et les exemples sont justes. Un autre problème de la recherche liée à l’IA est qu’une bonne partie des articles ne sont pas si nouveaux et que beaucoup n’ont pas été publiés dans des endroits « sérieux », mais qu’on les voit pourtant cités partout rien qu’en regardant Google Scholar
Il est difficile de reproduire les résultats et de vérifier la validité de certaines affirmations ; il y a aussi le fait qu’une étude d’il y a quatre ans utilisait un ensemble de modèles, alors que les tests actuels utilisent d’autres ensembles de modèles avec d’autres données d’entraînement. Il est difficile d’établir ce qui influence réellement les résultats, et si les conclusions ne s’appliquent qu’à des propriétés particulières d’anciens modèles ou si elles sont généralisables
- Je ne suis ni scientifique ni chercheur, mais tout ce qui repose sur les statistiques et l’interprétation des données me rend immédiatement méfiant
Le titre a changé, ou bien je commence à halluciner ?
Le titre est « I got fooled by AI-for-science hype—here's what it taught me »
- Oui, il a bien changé. Personnellement, je trouve que c’est pire. Il a été modifié par rapport au titre original
  Ici, on devrait préférer le titre original sauf problème sérieux
  Ce titre original n’avait pas de problème sérieux. Sauf si résumer précisément la critique prudente, par un doctorant, de contributions douteuses de l’IA à la recherche scientifique constitue un problème sérieux
- Ce n’est pas une hallucination : https://web.archive.org/web/20250520152757/https://news.ycom...
Cet article me semble moins parler de l’IA que de l’acquisition d’une des compétences moins souvent évoquées du doctorat : savoir lire des affirmations académiques
Les affirmations présentes dans les articles ne sont pas surprenantes. Elles sont le produit naturel de l’enchevêtrement d’incitations que, avec le temps, nous en sommes venus à appeler « science ». Il faut du temps et de la pratique pour replacer les productions scientifiques dans leur contexte, et pour comprendre qu’un « article » est le produit d’un système sociotechnique avec toute la complexité que cela implique

Ce que j’ai appris après m’être laissé berner par le battage autour de l’IA pour la science

Pourquoi j’ai quitté la physique des plasmas pour l’IA

Les fragilités révélées par les expériences sur les PINN

Les leçons laissées par les PINN et leur évaluation actuelle

L’optimisme excessif nourri par des baselines faibles

Résultat de l’examen de 76 articles : 79 % utilisaient des baselines faibles

Le type de validation nécessaire dans le domaine des EDP

Cas réels où l’IA a accéléré la science, et leurs limites

Pourquoi les scientifiques adoptent l’IA

Biais du survivant et crise de la reproductibilité

Les quatre pièges qui fabriquent un optimisme excessif

Fuite de données

Baselines faibles

Cherry-picking

Mauvais reporting

Conclusion : davantage un outil progressif et inégal qu’une révolution

À lire aussi

1 commentaires

Avis sur Hacker News