- Contrairement aux attentes autour de l’usage de l’IA dans la recherche en physique des plasmas, les résultats concrets observés relèvent surtout de performances exagérées et de limites importantes
- Les méthodes de résolution d’EDP (équations aux dérivées partielles) avec l’IA, comme les PINN, n’apportent pas d’avantage net face aux méthodes numériques classiques en matière de fiabilité et de performances
- En raison de baselines faibles (weak baselines) et d’un biais de publication, la plupart des articles sur les performances de l’IA les évaluent de façon beaucoup trop positive
- L’usage scientifique de l’IA progresse rapidement, mais il est plus probable qu’elle apporte une contribution progressive et limitée qu’un rôle de moteur d’une révolution scientifique
- La structure des articles scientifiques et les incitations qui pèsent sur les chercheurs conduisent à la non-publication des échecs et à des présentations exagérées, d’où la nécessité d’un scepticisme de fond lorsqu’on évalue l’impact scientifique de l’IA
Introduction et contexte de recherche
- L’auteur, Nick McGreivy, a obtenu un doctorat en physique des plasmas à Princeton avant de se réorienter vers des travaux utilisant le machine learning, porté par l’idée que l’IA pourrait transformer la recherche scientifique, en particulier en physique
- Il s’est demandé si l’IA pouvait, comme les semi-conducteurs, Internet ou les circuits intégrés, devenir une technologie générique capable de bouleverser l’ensemble des sciences
- En pratique, dans ses recherches sur la résolution d’EDP (équations aux dérivées partielles) par l’IA, il a constaté des résultats bien en deçà des promesses affichées par des articles pourtant très connus
Expérience d’application des PINN (Physics-Informed Neural Network)
- Dans le domaine de la résolution d’EDP par l’IA, les PINN se sont imposés comme une approche emblématique, que l’auteur a lui aussi testée expérimentalement
- Les articles existants rapportaient que les PINN fournissaient des solutions efficaces pour des EDP dans des domaines variés comme la mécanique des fluides classique, la mécanique quantique ou les systèmes de réaction-diffusion, mais, dans la pratique, il a observé des résultats instables ou très peu fiables même sur des EDP très simples (comme le Vlasov 1D)
- De simples ajustements ne suffisaient pas à améliorer les résultats, et sur des EDP plus complexes, comme Vlasov-Poisson 1D, il n’a tout simplement pas réussi à obtenir de solution correcte
- D’autres chercheurs autour de lui ont vécu des échecs similaires, mais ces résultats négatifs ne sont presque jamais publiés
Leçons tirées des expériences avec les PINN
- Même les auteurs d’articles fondateurs et influents savaient que les PINN échouaient dans certains réglages, mais ils n’ont rendu publics que les résultats jugés convaincants
- Dans l’écosystème des publications scientifiques, la mise en avant des résultats positifs et la non-publication des échecs liés à l’IA renforcent le biais du survivant (survivorship bias)
- L’auteur explique avoir finalement renoncé aux PINN malgré l’élégance numérique du concept, à cause de leurs instabilités, de la difficulté de réglage fin et de leur lenteur d’exécution
- L’article original a été cité plus de 14 000 fois et constitue l’un des travaux les plus cités dans le domaine des méthodes numériques, alors qu’en résolution concrète d’EDP il n’apporte pas d’avantage compétitif par rapport aux approches classiques
- Plus récemment, certains soutiennent que les PINN peuvent être efficaces dans des domaines précis comme les problèmes inverses (inverse problems), mais le sujet reste débattu parmi les chercheurs
Un excès d’optimisme nourri par des critères de comparaison inadaptés
- Par la suite, l’auteur a essayé des approches de deep learning qui, comme les techniques numériques traditionnelles, traitent la solution d’une EDP comme un ensemble de maillages ou de pixels sur un graphe
- De nombreux articles affirment que l’IA résout des EDP des milliers voire des dizaines de milliers de fois plus vite que les méthodes existantes, mais dans la majorité des cas, la baseline choisie comme référence est elle-même faible ou peu pertinente
- L’analyse d’articles représentatifs montre que, parmi 76 travaux affirmant un avantage de l’IA, 60 (79 %) ne procédaient pas à une comparaison équitable avec des méthodes numériques classiques suffisamment performantes
- Ces baselines faibles et la non-publication des résultats négatifs tendent à exagérer l’idée selon laquelle l’IA produirait des résultats révolutionnaires
- Ces travaux ont suscité des controverses dans le monde académique comme dans l’industrie : certains y voient une piste pour orienter les recherches futures et renforcer le potentiel de l’IA, tandis que d’autres insistent davantage sur le problème actuel de surestimation
Rôle et limites de l’IA dans la science
- Parmi les exemples de réussite souvent cités figurent AlphaFold pour la prédiction du repliement des protéines, la prévision météorologique (avec jusqu’à 20 % d’amélioration de la précision) ou la découverte de médicaments (avec une hausse du taux de réussite en phase 1), mais il s’agit davantage de progrès complémentaires et graduels que d’innovations radicales à grande échelle
- Les grandes entreprises technologiques, les médias et une partie du monde académique présentent souvent l’IA comme un outil révolutionnaire pour la science, voire comme un acteur capable de changer le paradigme scientifique, mais l’auteur estime que les limites de l’IA actuelle face à ces attentes sont désormais claires
Motivations d’adoption de l’IA et problèmes structurels de l’écosystème de recherche
- Si les scientifiques adoptent l’IA, c’est souvent moins pour faire avancer la science elle-même que pour des raisons de carrière : meilleurs salaires, progression professionnelle, citations, financements de recherche, etc.
- On observe effectivement que les chercheurs utilisant l’IA bénéficient d’un environnement plus favorable en matière de citations de haut niveau et de compétitivité scientifique que les autres scientifiques
- Les chercheurs qui mobilisent l’IA tombent souvent dans un piège structurel : au lieu de définir d’abord un problème scientifique à résoudre, ils partent à rebours à la recherche de problèmes que l’IA pourrait résoudre
- Il en résulte que beaucoup de travaux se concentrent davantage sur la démonstration du potentiel de l’IA que sur un progrès scientifique réel, en s’attaquant à des problèmes déjà résolus ou à des effets secondaires
Limites structurelles du reporting scientifique et biais d’optimisme dans la science
- La non-publication des résultats négatifs, autrement dit le biais du survivant, fait que l’on ne voit pratiquement que des cas de succès de l’IA, tandis que les échecs restent invisibles, ce qui fausse l’évaluation globale
- La structure même des articles favorise la répétition d’erreurs ou de biais systémiques comme les fuites de données, les baselines faibles, le cherry-picking et l’absence de signalement de certains résultats
- Les évaluateurs et les parties prenantes appartenant souvent à la même communauté, l’évaluation des résultats s’effectue dans une situation de conflit d’intérêts, où les bénéfices personnels sont directement en jeu
- L’auteur souligne ainsi qu’évaluer l’impact de l’IA dans la science exige un scepticisme fondamental et une habitude de vérification critique, comparable à l’attitude qui consiste à ne pas accorder une confiance aveugle à une étude isolée en nutrition
Conclusion
- À court terme, l’IA apparaît moins comme un outil révolutionnaire de transformation scientifique que comme un moyen sélectif et progressif de compléter les approches existantes
- En raison des incitations structurelles du milieu de la recherche, de la surestimation des résultats, de la non-publication des échecs et des baselines faibles, il est nécessaire de conserver une perspective critique et sceptique lorsqu’on évalue les véritables performances scientifiques de l’IA
- Le message final est que toute innovation idéale portée par l’IA devra s’accompagner de réformes structurelles — comme la formulation de défis pertinents, la publication des échecs et l’amélioration des cadres de comparaison équitable — pour devenir réellement crédible
1 commentaires
Commentaires sur Hacker News
Il y a eu une confusion sur le changement de titre ; le titre actuel est bien « I got fooled by AI-for-science hype—here's what it taught me »
Le titre a effectivement été modifié, et personnellement il semble même moins bon ; je préférais le titre d’origine, qui ne posait aucun problème. Le papier analyse de manière critique des exemples douteux où l’IA est censée contribuer à la recherche scientifique, vu par un doctorant.
Non, ce n’est pas une illusion : le titre a vraiment été changé, avec même une URL d’archive donnée en exemple.
J’ai eu la « chance » d’utiliser un solveur d’analyse structurelle de style FEM basé sur l’IA : pour des problèmes linéaires avec de petites déformations, c’est plus ou moins utilisable, mais dès que ça se complexifie, les performances s’effondrent. Là où la méthode classique donne une solution exacte en 5 minutes, ça sort quelque chose d’approximatif en 30 secondes. En non-linéaire, ça s’écroule complètement. Au mieux, c’est exploitable pour choisir des concepts très haut niveau, et encore, ça reste faible. Certains modèles ressemblent juste à des détecteurs de courbure : ce qui est droit en bleu, ce qui est très courbé en rouge, et le reste n’est qu’interpolation.
Au final, ça ressemble davantage à un solveur de « second principles », avec l’incapacité totale de résoudre de manière vraiment nouvelle des situations jamais vues.
Je me demande si on pourrait utiliser ce genre de modèle comme préconditionneur dans une méthode itérative.
Il y a toujours un risque quand une technologie nouvelle et à la mode attire une attention excessive. La citation importante de l’article, c’est : « la plupart des scientifiques n’essaient pas délibérément de tromper les autres, mais ils subissent une forte pression pour montrer des résultats favorables, ce qui finit par produire des biais trompeurs ». Comprendre les incitations de chacun aide énormément à interpréter l’information.
Au fond, c’est encore une répétition d’un problème chronique du monde académique : on se concentre davantage sur les citations et la carrière que sur la recherche de la vérité. L’IA n’est qu’un sujet parmi d’autres.
Je n’aime pas généraliser, mais après avoir vu plusieurs centres HPC en Allemagne, j’ai remarqué un schéma récurrent : beaucoup de gens formés en physique qui n’ont pas vraiment percé récupèrent l’essentiel des budgets liés à l’IA et multiplient les projets de type ML4Science. C’est dommage, car les centres HPC ne sont pas censés exister uniquement pour les physiciens. J’ai le sentiment que l’Allemagne devrait investir davantage dans la recherche sur l’IA elle-même.
Très concrètement, ce carriérisme est un effet secondaire du fait que le monde académique adopte de plus en plus la logique du marché privé. Ce que j’ai appris comme développeur logiciel, c’est que presque toutes les décisions sont guidées par l’intérêt personnel et la carrière. Chacun ne pense qu’à ce qui le met en valeur, et quand ça tourne mal, on rejette la faute sur les autres. Si on ne résiste pas à cet état d’esprit, on se retrouve désavantagé ; au final on arrive au même résultat, sauf qu’on est le seul à y perdre.
Je ne comprends pas vraiment pourquoi l’expression « no longer » est utilisée ici.
Le passage « après plusieurs semaines d’échec, j’ai contacté un ami dans une autre université, et lui non plus n’avait pas obtenu de bons résultats avec les PINNs » rappelle, indépendamment de l’IA, l’importance vitale de la collaboration continue dans la recherche : elle évite de refaire des chemins où d’autres ont déjà échoué.
Il faudrait publier aussi les expériences ratées sous forme d’articles.
C’est aussi une autre raison pour laquelle l’idée d’agents IA pour la science me convainc peu : la recherche est fondamentalement un processus très collaboratif. Même avec une excellente revue de littérature, je doute qu’on puisse être un bon chercheur sans rencontrer et parler aux autres en vrai.
Je ne suis pas un booster de l’IA, mais le fait que les résultats négatifs ne soient pas publiés et que tout le monde survende son propre article n’est pas un problème propre à l’IA. C’est un problème de système d’évaluation des scientifiques et de structure de l’industrie des revues, avec la même obsession d’attirer l’attention que dans les médias traditionnels. Quoi qu’il en soit, j’ai l’impression que l’hiver arrive.
Souvent, les papiers sur l’IA se résument à des choses du genre « si on mobilise des milliards de GPU pendant un temps infini, ça marche magiquement » ou « on a testé sur un vrai dataset propriétaire et on est les meilleurs ». Quand un article vient d’une grande entreprise, même avec des défauts évidents, on ne peut pas simplement l’ignorer. Au final, c’est une bataille de ressources. Des chercheurs universitaires peu financés comme moi ne peuvent même pas reproduire les résultats et sont forcés de croire les chiffres publiés.
Il y a 15 ans, j’ai publié un papier appliqué en IA puis je suis parti vers un autre domaine avant d’y revenir récemment. Le problème existe partout, mais l’IA attire particulièrement les chercheurs motivés par l’argent et la réputation. Les affirmations exagérées et les données arrangées y semblent encore plus fréquentes. Même les chercheurs responsables finissent par exagérer un peu pour rester compétitifs.
L’IA n’est qu’un aimant à tendance du moment, ce qui rend les problèmes plus visibles.
L’IA rend particulièrement plus facile l’écriture de « papiers plausibles ».
Je me demande pourquoi, sur HN, les perceptions autour de l’IA/ML sont à ce point polarisées. C’est un domaine vraiment nouveau, avec des capacités inédites : auparavant, on n’avait pas un système capable de générer du code à partir d’une simple consigne textuelle. Récemment, j’ai demandé à Claude un script de segmentation d’image avec interface utilisateur incluse, et il l’a produit en une minute. Ce n’est pas un cas isolé, et la génération d’images aussi a quelque chose de radicalement nouveau. Même s’il y a de l’exagération dans ce billet de blog, du point de vue d’un chercheur, le simple gain de productivité de l’IA pour produire du code est déjà énorme. Plus intéressant encore, il y a l’évolution de notre rapport aux données : autrefois, on disait que « l’internet n’oublie jamais », alors qu’aujourd’hui des pages sont réellement supprimées et les fonctions de cache disparaissent, au point qu’on a peu à peu oublié comment traiter les données. Avec l’arrivée de l’IA, la valeur des données remonte fortement. On entre dans une époque de renforcement où l’on donne du feedback et où celui-ci est réinjecté dans les résultats. Les progrès avancent dans toutes les directions — hardware, algorithmes, données, outils, protocoles. Il faut encore plus d’expérimentations, plus de GPU et de grands data centers ; on est actuellement dans un goulot d’étranglement, et les grandes entreprises entraînent de gros modèles pendant des semaines ou des mois.
Dire « ça m’a généré du code de segmentation d’image » revient en pratique à faire un copier-coller clinquant de données Stack Overflow. C’est dans la continuité de ce qu’on faisait avant avec Google. Même si la forme paraît nouvelle et impressionnante, sur le fond ça ressemble à chercher un restaurant dans un SIG. Dans le monde réel, il n’y a toujours aucun reasoning, seulement des corrélations sorties à partir des données. Ça reste utile, mais les limites sont claires.
Si l’ambiance autour de l’IA/ML est plus clivée sur HN que pour d’autres technologies, il faut l’interpréter du point de vue rationnel de chacun. L’idée que c’est révolutionnaire comme les inquiétudes sur le vol de données ou le mépris de la vie privée ont toutes des bases rationnelles. Il faut d’abord reconnaître qu’il existe plusieurs points de vue, puis faire l’effort de suspendre momentanément sa propre position pour comprendre réellement celle des autres.
Le rôle fondamental du programmeur, c’est de traduire le langage humain en langage machine. Les LLM franchissent clairement cette frontière. On ne sait pas jusqu’où ils iront, mais la barrière est déjà tombée. On peut lire cette situation comme une simple peur ou comme une menace plus sérieuse. Pour beaucoup, c’est une menace contre une compétence à hauts revenus cultivée pendant des années ; même si les programmeurs ne sont pas entièrement remplacés, devoir se battre simplement pour maintenir des salaires à plusieurs centaines de milliers de dollars suffit déjà à être perçu comme une menace.
HN a toujours été divisé sur la question de savoir si telle technologie à la mode est réelle ou illusoire. Ce genre de débat se répète avec beaucoup de technologies, et il m’est arrivé de changer moi-même d’avis. Au final, je pense que ce n’est pas très différent de ce qu’on voit d’habitude.
À l’inverse, le discours selon lequel « l’IA va révolutionner la science » donne l’impression d’avoir largement dépassé les preuves disponibles.
Au début, l’article donne l’impression de dire que toute l’IA est survendue, alors qu’en réalité il critique surtout une architecture spécifique, les PINN. À la fin, il mentionne aussi des résultats où des modèles de DL résolvent des PDE plus rapidement.
Ce n’est pas seulement un problème des PINN, c’est bien plus large. On sait depuis longtemps que les PINN ne sont pas formidables, mais les échecs plus généraux du ML appliqué à des problèmes physiques sont aussi omniprésents. Le ML fonctionne bien soit (1) quand on a énormément de données dans un domaine étroit, comme les MLIP, soit (2) quand on a des quantités massives de données et de très grands modèles, comme AlphaFold. Or la plupart des travaux de ML pour la physique se situent entre les deux : peu de données expérimentales, simulations coûteuses, taille des datasets et des modèles ni petite ni immense. Résultat, tout le monde essaie, échoue, puis publie quand même. Si ça vient d’un labo célèbre, d’un PI connu, ou que ça a l’air original, de bonnes revues publient et les citations montent. Au final, on n’obtient souvent qu’une reproduction partielle des données, et il ne reste plus qu’à conclure que d’autres devront se concentrer sur la généralisation.
Ce que l’auteur a fait ne se limite pas aux PINN : il a aussi publié un papier analysant systématiquement plusieurs modèles, avec même une section dédiée.
Remplacez PINN par n’importe quelle autre solution IA et on retrouve toujours une part d’exagération. Jusqu’ici, l’évaluation réaliste de l’utilité de l’IA serait plutôt : « automatisation de tâches simples pour des experts, avec triple vérification obligatoire ».
Excellente analyse et bons exemples. Un autre problème est que beaucoup de papiers sur l’IA, même lorsqu’ils ne paraissent pas dans des revues nouvelles et « officielles », accumulent quand même énormément de citations. Il est très difficile de reproduire les résultats ou de vérifier les affirmations, parce que les méthodes de recherche et les données changent chaque année. On ne sait même pas clairement si une conclusion vient des particularités d’un ancien modèle ou si elle est réellement généralisable.
En voyant le nom du propriétaire du blog (« Timothy B. Lee »), j’ai été surpris qu’un inventeur du HTTP et du Web âgé de plus de 70 ans tienne un blog aussi pointu.