De faux articles scientifiques sur Google Scholar générés par GPT : principales caractéristiques, diffusion et implications pour prévenir la manipulation des preuves
(misinforeview.hks.harvard.edu)- De nombreux articles suspects, qui semblent avoir été générés à l’aide de modèles GPT couramment utilisés, sont facilement repérables sur Google Scholar
- Ces articles sont principalement produits à l’aide d’applications d’IA généralistes largement utilisées, en particulier ChatGPT, et imitent l’écriture scientifique
- Google Scholar répertorie ces articles suspects aux côtés d’articles de recherche réputés et soumis à un contrôle qualité
- L’analyse d’un échantillon d’articles scientifiques suspects générés par GPT repérés sur Google Scholar montre que beaucoup portent sur des domaines d’application vulnérables à la désinformation numérique, comme l’environnement, la santé et l’informatique
- Le risque croissant de manipulation malveillante des preuves dans des domaines politiquement très conflictuels est une préoccupation de plus en plus alarmante
Constatations
Constatation 1 : 139 articles suspects générés par GPT sont listés comme des articles ordinaires dans les résultats de recherche Google Scholar. Beaucoup proviennent de revues non indexées
- La majorité des articles suspects provenaient de revues non indexées ou de working papers, mais certains ont aussi été trouvés dans des revues, publications, conférences et repositories reconnus
- Au total, 139 articles soupçonnés d’avoir recours de manière trompeuse à ChatGPT ou à des applications LLM similaires ont été identifiés
- Parmi eux, 19 relevaient de revues indexées, 89 de revues non indexées, 19 de travaux étudiants dans des bases de données universitaires, et 12 de working papers, principalement dans des bases de données de preprints
- Les articles liés à l’environnement et à la santé représentent environ 34 % de l’échantillon, et 66 % d’entre eux ont été publiés dans des revues non indexées
Constatation 2 : Les articles suspects générés par GPT sont diffusés en ligne, se propagent dans l’ensemble de l’infrastructure de communication scientifique et existent souvent en plusieurs copies. Les domaines d’application avec des implications pratiques dominent
- 27 articles liés à des enjeux environnementaux ont été trouvés à 56 URL sur 26 domaines uniques
- 20 articles liés à des enjeux de santé ont été trouvés à 46 URL sur 20 domaines uniques
- La plupart des articles identifiés existent en plusieurs copies et se sont déjà diffusés dans divers archives, repositories et réseaux sociaux
- Il sera difficile, voire impossible, de les retirer du dossier scientifique
Constatation 3 : Google Scholar présente dans une même interface les résultats provenant de bases de citations contrôlées sur le plan qualitatif et d’autres qui ne le sont pas, permettant un accès sans restriction à des articles suspects générés par GPT
- La position centrale de Google Scholar dans l’infrastructure de communication scientifique en accès public, ainsi que l’absence de normes, de transparence et de responsabilité dans ses critères d’inclusion, peuvent avoir de graves conséquences sur la confiance du public dans la science
- Cela accroît le risque d’exploitation de Google Scholar pour le evidence hacking et influencera les tentatives de retrait ou de suppression des faux articles à leur source initiale
- Toute solution devra prendre en compte l’ensemble de l’infrastructure de communication scientifique ainsi que les interactions entre différents acteurs, intérêts et motivations
Avis de GN⁺
La situation est préoccupante pour les raisons suivantes :
-
Les articles générés par GPT pourraient submerger le système de communication scientifique et menacer l’intégrité du dossier scientifique. Cela aggravera encore le problème existant des paper mills.
-
Des contenus produits par l’IA, à l’apparence scientifiquement convaincante, peuvent en réalité avoir été générés de manière trompeuse. Cela risque d’affaiblir la confiance du public dans les connaissances scientifiques et d’entraîner de graves risques sociaux.
-
Les critères d’inclusion de Google Scholar manquent de transparence et de responsabilité. Cela est lié au problème consistant à présenter indistinctement dans les résultats de recherche des bases de citations conformes aux standards et d’autres qui ne le sont pas.
-
Comme les faux articles se diffusent sur de nombreuses plateformes, il est difficile de les suivre et de les retirer même après rétractation de l’original. Cela peut avoir des effets négatifs durables dans les domaines de recherche concernés.
-
De nombreux articles générés par GPT ont été trouvés sur des sujets socialement sensibles et importants, comme la santé ou l’environnement. Cela peut provoquer une grave confusion dans la prise de décision publique et se prêter à des usages politiques malveillants.
Pour répondre à ce problème, il faut envisager simultanément des approches techniques, éducatives et institutionnelles. Par exemple :
- proposer dans les moteurs de recherche académiques des options de filtrage selon des critères comme l’existence d’une peer review
- intégrer des outils d’évaluation dans l’interface et les crawlers des moteurs de recherche académiques
- construire un moteur de recherche académique gratuit, opéré dans l’intérêt public plutôt que pour des raisons commerciales
- mettre en place des initiatives de formation à destination des décideurs publics, des communicants scientifiques et des journalistes
Plus fondamentalement, il faut aborder ce problème dans un cadre plus large incluant les dysfonctionnements du système d’édition scientifique, la culture du "publish or perish", le monopole de Google et les conflits idéologiques autour du contrôle de l’information. Une solution purement technique ne suffira pas.
2 commentaires
alphaXiv - discuter publiquement des articles sur arXiv
En voyant cette plateforme et cet article ensemble, on a l’impression qu’il y a un lien
Avis Hacker News
Lors de l’APS March Meeting, un éditeur de revue scientifique s’inquiète davantage des reviews générées par des LLM que des articles générés par des LLM
Le script Python des auteurs pourrait contenir un bug
bibn’est pas présente dans la réponse de l’API, les colonnes du data frame peuvent ne pas correspondreGPT peut faciliter la manipulation d’articles scientifiques, mais les humains s’en sortaient déjà très bien sans IA
Il serait souhaitable que les méthodes de collecte de données dans les articles sur les LLM soient plus sophistiquées
Les experts du domaine concerné peuvent facilement distinguer les faux résultats
Dans une discussion précédente, des articles soupçonnés d’avoir utilisé GPT avaient en réalité été rédigés avant OpenAI
ChatGPT ne comprend pas la vérité
Apprécie le fait que l’image de l’article ne soit pas générée par IA
Les articles générés par GPT pourraient avoir été rédigés par des personnes dont l’anglais n’est pas la langue maternelle afin d’améliorer leur anglais
On a l’impression d’entrer dans une époque sombre