De faux articles scientifiques sur Google Scholar générés par GPT : principales caractéristiques, diffusion et implications pour prévenir la manipulation des preuves

(misinforeview.hks.harvard.edu)

7 points par GN⁺ 2024-09-09 | 2 commentaires | Partager sur WhatsApp

De nombreux articles suspects, qui semblent avoir été générés à l’aide de modèles GPT couramment utilisés, sont facilement repérables sur Google Scholar
Ces articles sont principalement produits à l’aide d’applications d’IA généralistes largement utilisées, en particulier ChatGPT, et imitent l’écriture scientifique
Google Scholar répertorie ces articles suspects aux côtés d’articles de recherche réputés et soumis à un contrôle qualité
L’analyse d’un échantillon d’articles scientifiques suspects générés par GPT repérés sur Google Scholar montre que beaucoup portent sur des domaines d’application vulnérables à la désinformation numérique, comme l’environnement, la santé et l’informatique
Le risque croissant de manipulation malveillante des preuves dans des domaines politiquement très conflictuels est une préoccupation de plus en plus alarmante

Constatations

Constatation 1 : 139 articles suspects générés par GPT sont listés comme des articles ordinaires dans les résultats de recherche Google Scholar. Beaucoup proviennent de revues non indexées

La majorité des articles suspects provenaient de revues non indexées ou de working papers, mais certains ont aussi été trouvés dans des revues, publications, conférences et repositories reconnus
Au total, 139 articles soupçonnés d’avoir recours de manière trompeuse à ChatGPT ou à des applications LLM similaires ont été identifiés
Parmi eux, 19 relevaient de revues indexées, 89 de revues non indexées, 19 de travaux étudiants dans des bases de données universitaires, et 12 de working papers, principalement dans des bases de données de preprints
Les articles liés à l’environnement et à la santé représentent environ 34 % de l’échantillon, et 66 % d’entre eux ont été publiés dans des revues non indexées

Constatation 2 : Les articles suspects générés par GPT sont diffusés en ligne, se propagent dans l’ensemble de l’infrastructure de communication scientifique et existent souvent en plusieurs copies. Les domaines d’application avec des implications pratiques dominent

27 articles liés à des enjeux environnementaux ont été trouvés à 56 URL sur 26 domaines uniques
20 articles liés à des enjeux de santé ont été trouvés à 46 URL sur 20 domaines uniques
La plupart des articles identifiés existent en plusieurs copies et se sont déjà diffusés dans divers archives, repositories et réseaux sociaux
Il sera difficile, voire impossible, de les retirer du dossier scientifique

Constatation 3 : Google Scholar présente dans une même interface les résultats provenant de bases de citations contrôlées sur le plan qualitatif et d’autres qui ne le sont pas, permettant un accès sans restriction à des articles suspects générés par GPT

La position centrale de Google Scholar dans l’infrastructure de communication scientifique en accès public, ainsi que l’absence de normes, de transparence et de responsabilité dans ses critères d’inclusion, peuvent avoir de graves conséquences sur la confiance du public dans la science
Cela accroît le risque d’exploitation de Google Scholar pour le evidence hacking et influencera les tentatives de retrait ou de suppression des faux articles à leur source initiale
Toute solution devra prendre en compte l’ensemble de l’infrastructure de communication scientifique ainsi que les interactions entre différents acteurs, intérêts et motivations

Avis de GN⁺

La situation est préoccupante pour les raisons suivantes :

Les articles générés par GPT pourraient submerger le système de communication scientifique et menacer l’intégrité du dossier scientifique. Cela aggravera encore le problème existant des paper mills.
Des contenus produits par l’IA, à l’apparence scientifiquement convaincante, peuvent en réalité avoir été générés de manière trompeuse. Cela risque d’affaiblir la confiance du public dans les connaissances scientifiques et d’entraîner de graves risques sociaux.
Les critères d’inclusion de Google Scholar manquent de transparence et de responsabilité. Cela est lié au problème consistant à présenter indistinctement dans les résultats de recherche des bases de citations conformes aux standards et d’autres qui ne le sont pas.
Comme les faux articles se diffusent sur de nombreuses plateformes, il est difficile de les suivre et de les retirer même après rétractation de l’original. Cela peut avoir des effets négatifs durables dans les domaines de recherche concernés.
De nombreux articles générés par GPT ont été trouvés sur des sujets socialement sensibles et importants, comme la santé ou l’environnement. Cela peut provoquer une grave confusion dans la prise de décision publique et se prêter à des usages politiques malveillants.

Pour répondre à ce problème, il faut envisager simultanément des approches techniques, éducatives et institutionnelles. Par exemple :

proposer dans les moteurs de recherche académiques des options de filtrage selon des critères comme l’existence d’une peer review
intégrer des outils d’évaluation dans l’interface et les crawlers des moteurs de recherche académiques
construire un moteur de recherche académique gratuit, opéré dans l’intérêt public plutôt que pour des raisons commerciales
mettre en place des initiatives de formation à destination des décideurs publics, des communicants scientifiques et des journalistes

Plus fondamentalement, il faut aborder ce problème dans un cadre plus large incluant les dysfonctionnements du système d’édition scientifique, la culture du "publish or perish", le monopole de Google et les conflits idéologiques autour du contrôle de l’information. Une solution purement technique ne suffira pas.

2 commentaires

xguru 2024-09-09

alphaXiv - discuter publiquement des articles sur arXiv

En voyant cette plateforme et cet article ensemble, on a l’impression qu’il y a un lien

GN⁺ 2024-09-09

Avis Hacker News

Lors de l’APS March Meeting, un éditeur de revue scientifique s’inquiète davantage des reviews générées par des LLM que des articles générés par des LLM
- Les LLM sont plus doués pour résumer du contenu que pour mener de longs raisonnements logiques
- Les reviews n’étant pas publiques, cela suscite moins de honte
Le script Python des auteurs pourrait contenir un bug
- Si la clé bib n’est pas présente dans la réponse de l’API, les colonnes du data frame peuvent ne pas correspondre
- Un tableau de flags pourrait être utilisé pour supprimer les mauvais résultats, mais il n’est pas utilisé dans le code
GPT peut faciliter la manipulation d’articles scientifiques, mais les humains s’en sortaient déjà très bien sans IA
- Partage d’un lien vidéo intéressant à ce sujet
Il serait souhaitable que les méthodes de collecte de données dans les articles sur les LLM soient plus sophistiquées
- L’usage des LLM a un impact sur la science et la société bien au-delà de la simple relecture
- Le périmètre de la relecture varie selon les personnes
Les experts du domaine concerné peuvent facilement distinguer les faux résultats
- Le contenu sans originalité est plus difficile à distinguer
- Les problèmes d’honnêteté des chercheurs existaient déjà avant l’IA
- Il est difficile pour les non-spécialistes de distinguer le vrai du faux
Dans une discussion précédente, des articles soupçonnés d’avoir utilisé GPT avaient en réalité été rédigés avant OpenAI
ChatGPT ne comprend pas la vérité
- Lors de l’utilisation de ChatGPT dans un projet de recherche lié aux data lakes, il y a eu beaucoup de faux liens et de résumés de supports marketing
Apprécie le fait que l’image de l’article ne soit pas générée par IA
Les articles générés par GPT pourraient avoir été rédigés par des personnes dont l’anglais n’est pas la langue maternelle afin d’améliorer leur anglais
On a l’impression d’entrer dans une époque sombre