- Ces derniers temps, des outils d’IA détectent des erreurs de calcul, de méthodologie et de bibliographie dans des articles de recherche
- L’an dernier, une étude affirmant que des ustensiles de cuisine en plastique noir contenaient des substances chimiques cancérigènes a été relayée
- Mais une erreur mathématique dans l’étude a révélé que la concentration réelle de ces substances était en fait 10 fois inférieure au seuil de sécurité
- Un modèle d’intelligence artificielle (IA) a pu repérer cette erreur en quelques secondes
Projet de détection d’erreurs dans les articles scientifiques basé sur l’IA
Black Spatula Project
- Outil d’IA open source ayant analysé environ 500 articles pour y détecter des erreurs
- Le projet est coordonné par Joaquin Gulloso, chercheur indépendant en IA basé en Colombie, avec la participation de 8 développeurs et de centaines de conseillers
- La liste des erreurs n’est pas rendue publique ; lorsqu’une erreur est trouvée, les chercheurs sont contactés directement afin de les inciter à la corriger
YesNoError
- Projet lancé en s’inspirant du Black Spatula Project
- Dirigé par son fondateur, l’entrepreneur en IA Matt Schlicht
- Fonctionne grâce à un financement en cryptomonnaie dédiée
- Environ 37 000 articles analysés en deux mois à ce jour
- Les articles dans lesquels des erreurs ont été trouvées sont signalés sur le site web, mais la plupart n’ont pas encore été vérifiés par des experts
- À long terme, le projet prévoit de collaborer avec ResearchHub (qui récompense les chercheurs titulaires d’un doctorat en cryptomonnaie) pour valider les erreurs
Encourager les chercheurs et les revues à utiliser des outils d’IA
- Encourager les chercheurs à utiliser des outils d’IA avant de soumettre un article, et les revues avant publication, afin de détecter les erreurs en amont
- L’objectif attendu est de renforcer la fiabilité scientifique en prévenant les erreurs et les fraudes à la recherche
Réactions et inquiétudes dans le monde académique
- Les spécialistes de l’intégrité scientifique réagissent de manière prudemment positive à ces projets
- La chercheuse Michèle Nuijten, de l’université de Tilburg, exprime l’inquiétude suivante :
- si la précision des outils d’IA n’est pas clairement validée, signaler à tort des erreurs pourrait nuire à la réputation des chercheurs
- James Heathers, métascientifique forensique à l’université de Linné, soutient pour sa part :
- "Il est bien plus facile d’écrire un mauvais article que de le rétracter"
- l’IA peut être utile pour filtrer les articles et déclencher des examens supplémentaires
Fonctionnement des outils d’IA
- Utilisation de grands modèles de langage (LLM) pour détecter les erreurs dans les articles
- Extraction d’informations comme les tableaux et les images, puis génération de commandes complexes (prompts)
- Le modèle d’IA analyse plusieurs fois l’article afin d’explorer différents types d’erreurs et de croiser les résultats
- Coût d’analyse d’un article : de 15 centimes à plusieurs dollars selon la longueur du texte et la complexité des prompts
Le problème des faux positifs
- Black Spatula Project → environ 10 % de faux positifs
- Toutes les erreurs doivent être vérifiées par des experts → le manque d’experts constitue le principal goulet d’étranglement
- YesNoError → sur 10 000 articles, la vérification de 100 erreurs mathématiques a montré que plus de 90 % étaient de vraies erreurs
- YesNoError travaille à réduire le taux de faux positifs et continue d’intégrer les retours du monde académique
Critiques concernant les faux positifs
- Le chercheur Nick Brown, de l’université de Linné :
- sur 40 articles analysés par YesNoError, 14 contenaient des faux positifs, principalement liés à des problèmes de rédaction
- des erreurs mineures risquent d’imposer une charge inutile au monde académique
- "À moins que la technologie ne s’améliore nettement, cela demandera beaucoup de travail sans bénéfice évident"
Défis à venir et attentes autour des outils d’IA
- YesNoError prévoit d’introduire un système dans lequel les détenteurs de cryptomonnaie décideront en priorité quels articles doivent être examinés
- Cela pourrait conduire à cibler des articles sur des sujets politiquement sensibles, comme les sciences du climat
- Le chercheur Brown : "Si les outils d’IA se révèlent vraiment efficaces, ils pourraient provoquer de grands changements dans certains domaines de recherche"
5 commentaires
Les articles de faible qualité seront sans doute écartés, mais je crains qu’à l’inverse, le seuil à franchir devienne aussi plus élevé pour les bons articles, ce qui pourrait les rendre relativement moins créatifs. Même lorsqu’il existe des failles logiques, elles peuvent parfois donner naissance à de nouvelles idées, donc personnellement, je n’accueille pas vraiment cela avec enthousiasme.
L’IA peut aussi se tromper, donc je me demande comment vérifier que les points qu’elle a relevés ne sont pas erronés.
Avec la démocratisation des LLM, d’énormes changements apparaissent dans les domaines où la demande provenait en grande partie d’une asymétrie de l’information.
Je me demande ce que ça donnerait si on leur faisait analyser les différentes écritures sacrées de l’humanité, haha.
Avis Hacker News
Si l’IA peut détecter des erreurs évidentes dans des articles déjà publiés, elle pourrait être utilisée comme une étape du processus d’évaluation. Les auteurs pourraient l’appliquer à leur travail avant soumission, ce qui améliorerait fortement la qualité des articles
Le site YesNoError contient actuellement de nombreux faux positifs. Nick Brown, chercheur à la Linnaeus University, indique que 14 des 40 articles problématiques étaient des faux positifs
Comme c’est actuellement piloté par l’IA, on pourrait croire qu’elle vérifie les fraudes ou les raisonnements erronés. En réalité, elle vérifie surtout l’auto-cohérence et la cohérence avec ses données d’entraînement
Proposition d’utiliser l’IA pour cartographier l’impact des articles rétractés. Elle pourrait identifier les conclusions qui ne sont plus étayées dans les articles rétractés, puis vérifier où elles apparaissent dans les travaux en aval
Notre mémoire collective est-elle trop courte ? A-t-on oublié les problèmes causés par les signalements de bugs générés par l’IA ?
Deux exemples sont donnés dans le projet Black Spatula, où des erreurs majeures ont été détectées
L’idée est bonne, et on aimerait l’appliquer à ses propres rapports d’entreprise afin de détecter les erreurs évidentes avant de les envoyer à son supérieur
YesNoError prévoit que les détenteurs de cryptomonnaie décident quels articles seront examinés en priorité
C’est une très mauvaise idée. Il faut sauter la première section et lire celle sur les « faux positifs »
Fort scepticisme quant à la valeur de cette approche. On a déjà perdu du temps à répondre à des affirmations infondées issues de « revues » par l’IA. De telles affirmations existaient peut-être déjà auparavant, mais les générateurs de texte savent halluciner en utilisant les bons termes pour convaincre les gens ordinaires et les amateurs, ce qui les rend plus pénibles à traiter