Des outils d’IA repèrent des erreurs dans des articles de recherche

(nature.com)

14 points par GN⁺ 2025-03-09 | 5 commentaires | Partager sur WhatsApp

Ces derniers temps, des outils d’IA détectent des erreurs de calcul, de méthodologie et de bibliographie dans des articles de recherche
L’an dernier, une étude affirmant que des ustensiles de cuisine en plastique noir contenaient des substances chimiques cancérigènes a été relayée
- Mais une erreur mathématique dans l’étude a révélé que la concentration réelle de ces substances était en fait 10 fois inférieure au seuil de sécurité
- Un modèle d’intelligence artificielle (IA) a pu repérer cette erreur en quelques secondes

Projet de détection d’erreurs dans les articles scientifiques basé sur l’IA

Black Spatula Project

Outil d’IA open source ayant analysé environ 500 articles pour y détecter des erreurs
Le projet est coordonné par Joaquin Gulloso, chercheur indépendant en IA basé en Colombie, avec la participation de 8 développeurs et de centaines de conseillers
La liste des erreurs n’est pas rendue publique ; lorsqu’une erreur est trouvée, les chercheurs sont contactés directement afin de les inciter à la corriger

YesNoError

Projet lancé en s’inspirant du Black Spatula Project
Dirigé par son fondateur, l’entrepreneur en IA Matt Schlicht
Fonctionne grâce à un financement en cryptomonnaie dédiée
Environ 37 000 articles analysés en deux mois à ce jour
Les articles dans lesquels des erreurs ont été trouvées sont signalés sur le site web, mais la plupart n’ont pas encore été vérifiés par des experts
À long terme, le projet prévoit de collaborer avec ResearchHub (qui récompense les chercheurs titulaires d’un doctorat en cryptomonnaie) pour valider les erreurs

Encourager les chercheurs et les revues à utiliser des outils d’IA

Encourager les chercheurs à utiliser des outils d’IA avant de soumettre un article, et les revues avant publication, afin de détecter les erreurs en amont
L’objectif attendu est de renforcer la fiabilité scientifique en prévenant les erreurs et les fraudes à la recherche

Réactions et inquiétudes dans le monde académique

Les spécialistes de l’intégrité scientifique réagissent de manière prudemment positive à ces projets
La chercheuse Michèle Nuijten, de l’université de Tilburg, exprime l’inquiétude suivante :
- si la précision des outils d’IA n’est pas clairement validée, signaler à tort des erreurs pourrait nuire à la réputation des chercheurs
James Heathers, métascientifique forensique à l’université de Linné, soutient pour sa part :
- "Il est bien plus facile d’écrire un mauvais article que de le rétracter"
- l’IA peut être utile pour filtrer les articles et déclencher des examens supplémentaires

Fonctionnement des outils d’IA

Utilisation de grands modèles de langage (LLM) pour détecter les erreurs dans les articles
- Extraction d’informations comme les tableaux et les images, puis génération de commandes complexes (prompts)
- Le modèle d’IA analyse plusieurs fois l’article afin d’explorer différents types d’erreurs et de croiser les résultats
- Coût d’analyse d’un article : de 15 centimes à plusieurs dollars selon la longueur du texte et la complexité des prompts

Le problème des faux positifs

Black Spatula Project → environ 10 % de faux positifs
- Toutes les erreurs doivent être vérifiées par des experts → le manque d’experts constitue le principal goulet d’étranglement
YesNoError → sur 10 000 articles, la vérification de 100 erreurs mathématiques a montré que plus de 90 % étaient de vraies erreurs
- YesNoError travaille à réduire le taux de faux positifs et continue d’intégrer les retours du monde académique

Critiques concernant les faux positifs

Le chercheur Nick Brown, de l’université de Linné :
- sur 40 articles analysés par YesNoError, 14 contenaient des faux positifs, principalement liés à des problèmes de rédaction
- des erreurs mineures risquent d’imposer une charge inutile au monde académique
- "À moins que la technologie ne s’améliore nettement, cela demandera beaucoup de travail sans bénéfice évident"

Défis à venir et attentes autour des outils d’IA

YesNoError prévoit d’introduire un système dans lequel les détenteurs de cryptomonnaie décideront en priorité quels articles doivent être examinés
- Cela pourrait conduire à cibler des articles sur des sujets politiquement sensibles, comme les sciences du climat
Le chercheur Brown : "Si les outils d’IA se révèlent vraiment efficaces, ils pourraient provoquer de grands changements dans certains domaines de recherche"

5 commentaires

dbs0829 2025-03-10

Les articles de faible qualité seront sans doute écartés, mais je crains qu’à l’inverse, le seuil à franchir devienne aussi plus élevé pour les bons articles, ce qui pourrait les rendre relativement moins créatifs. Même lorsqu’il existe des failles logiques, elles peuvent parfois donner naissance à de nouvelles idées, donc personnellement, je n’accueille pas vraiment cela avec enthousiasme.

mcdasa 2025-03-09

L’IA peut aussi se tromper, donc je me demande comment vérifier que les points qu’elle a relevés ne sont pas erronés.

ndrgrd 2025-03-09

Avec la démocratisation des LLM, d’énormes changements apparaissent dans les domaines où la demande provenait en grande partie d’une asymétrie de l’information.

bus710 2025-03-09

Je me demande ce que ça donnerait si on leur faisait analyser les différentes écritures sacrées de l’humanité, haha.

GN⁺ 2025-03-09

Avis Hacker News

Si l’IA peut détecter des erreurs évidentes dans des articles déjà publiés, elle pourrait être utilisée comme une étape du processus d’évaluation. Les auteurs pourraient l’appliquer à leur travail avant soumission, ce qui améliorerait fortement la qualité des articles
- Le point essentiel est que des experts, à savoir les auteurs et les relecteurs pairs, participent au processus. Ils peuvent facilement écarter les faux positifs, tout en recevant des alertes sur des erreurs statistiques ou sur des points hors de leur domaine de spécialité
Le site YesNoError contient actuellement de nombreux faux positifs. Nick Brown, chercheur à la Linnaeus University, indique que 14 des 40 articles problématiques étaient des faux positifs
- La plupart des problèmes semblent relever de questions de rédaction, et beaucoup de détections seraient erronées
- Il avertit que, à moins que cette technologie ne s’améliore fortement, elle générera beaucoup de travail sans bénéfice évident
Comme c’est actuellement piloté par l’IA, on pourrait croire qu’elle vérifie les fraudes ou les raisonnements erronés. En réalité, elle vérifie surtout l’auto-cohérence et la cohérence avec ses données d’entraînement
- Cela peut être utile pour les fautes de frappe, les formulations trompeuses, ainsi que la vérification croisée de faits et de diagrammes, mais cela ne contribuera guère à détecter des données fabriquées ou des conclusions plausibles mais fausses
Proposition d’utiliser l’IA pour cartographier l’impact des articles rétractés. Elle pourrait identifier les conclusions qui ne sont plus étayées dans les articles rétractés, puis vérifier où elles apparaissent dans les travaux en aval
Notre mémoire collective est-elle trop courte ? A-t-on oublié les problèmes causés par les signalements de bugs générés par l’IA ?
Deux exemples sont donnés dans le projet Black Spatula, où des erreurs majeures ont été détectées
- Il n’était pas nécessaire d’avoir un pipeline complexe multi-agents ; un simple prompt suffisait pour détecter ces erreurs
L’idée est bonne, et on aimerait l’appliquer à ses propres rapports d’entreprise afin de détecter les erreurs évidentes avant de les envoyer à son supérieur
- Cependant, deux approches sont mises en avant. L’une consiste à adopter une approche à petite échelle, en contactant d’abord les auteurs en privé sans rien publier. L’autre consiste à publier d’abord, sans relecture humaine, avec sa propre cryptomonnaie
YesNoError prévoit que les détenteurs de cryptomonnaie décident quels articles seront examinés en priorité
C’est une très mauvaise idée. Il faut sauter la première section et lire celle sur les « faux positifs »
Fort scepticisme quant à la valeur de cette approche. On a déjà perdu du temps à répondre à des affirmations infondées issues de « revues » par l’IA. De telles affirmations existaient peut-être déjà auparavant, mais les générateurs de texte savent halluciner en utilisant les bons termes pour convaincre les gens ordinaires et les amateurs, ce qui les rend plus pénibles à traiter