GPTZero découvre 100 nouvelles citations hallucinées dans les articles acceptés à NeurIPS 2025
(gptzero.me)- L’outil Hallucination Check de GPTZero a analysé 4 841 articles sur les 5 290 acceptés à NeurIPS 2025 et a identifié plus de 100 « citations hallucinées »
- Dans de nombreux articles, des traces de génération par IA ont été relevées, comme des auteurs inexistants, des DOI et URL erronés, ainsi que des titres fabriqués
- GPTZero qualifie ces erreurs de « vibe citing », c’est-à-dire des citations rendues plausibles par mélange et transformation d’informations issues de vrais articles
- Tous les cas ont été vérifiés par des experts humains ; l’outil affiche un très faible taux de faux négatifs (détection à 99 %) et signale de manière prudente les cas suspects
- Ce cas est considéré comme un exemple montrant la nécessité d’automatiser la détection des erreurs de citation liées à l’IA dans la rédaction et la vérification des articles scientifiques
Résultats de l’analyse des articles NeurIPS 2025 par GPTZero
- GPTZero a scanné 4 841 articles sur les 5 290 acceptés à NeurIPS 2025 et a découvert plus de 100 citations hallucinées
- Chaque cas a été vérifié humainement pour confirmer qu’il s’agissait bien de références inexistantes
- Parmi les exemples relevés figurent de nombreuses citations contenant des noms de revues, noms d’auteurs et DOI inexistants
- GPTZero classe ce type d’erreurs de citation comme des traces de génération par IA (« vibe citing »)
- La forme la plus courante consiste en de fausses citations créées en combinant ou en modifiant de vrais titres et noms d’auteurs
- Certaines utilisent des titres proches d’articles réels, mais sont identifiées grâce à des incohérences sur l’année, la source ou les auteurs
Définition et types de « vibe citing »
- GPTZero définit le « vibe citing » comme une « citation créée par une IA générative en combinant ou en transformant de vraies sources »
- Cela inclut des cas où les noms d’auteurs, titres, éditeurs ou DOI sont manipulés ou synthétisés
- Il peut aussi s’agir de citations partielles d’articles existants ou de noms de revues fictifs
- En revanche, de simples fautes de frappe, liens morts ou numéros de page manquants sont considérés comme des erreurs humaines et exclus
- GPTZero présente les différences entre citations réelles, défectueuses et hallucinées sous forme de tableau comparatif
- Exemple : transformer l’article « Deep learning » en « Samuel LeCun Jackson. Deep learning. Science & Nature, 2021. » est classé comme une citation hallucinée
Fonctionnement de l’outil Hallucination Check
- Hallucination Check est un système de détection basé sur l’IA qui automatise la vérification des citations
- Il signale automatiquement les références qui ne peuvent pas être vérifiées en ligne
- Il aide les auteurs, éditeurs et reviewers à examiner rapidement les erreurs de citation
- Étapes d’utilisation
- L’auteur vérifie automatiquement les citations de son article avant soumission
- Le reviewer identifie rapidement les citations non vérifiées
- Les équipes éditoriales de conférences et de journaux peuvent, en parallèle de l’AI Detector, détecter à la fois les traces de rédaction par IA et les erreurs de citation
Précision de validation de GPTZero
- Hallucination Check présente un très faible taux de faux négatifs (99 % de précision de détection)
- Autrement dit, la probabilité de laisser passer une véritable citation hallucinée est extrêmement faible
- En contrepartie, le taux de faux positifs est un peu plus élevé, en raison d’une détection prudente
- GPTZero indique avoir repéré, avec la même méthode, des dizaines d’erreurs de citation liées à l’IA dans des cas comme ICLR 2026 ou des rapports de Deloitte
Ce que cela implique pour le monde académique et l’édition
- Le cas de NeurIPS 2025 met en lumière le problème de la baisse de fiabilité des citations, dans un contexte d’usage croissant d’outils d’IA pour rédiger des articles scientifiques
- GPTZero collabore avec le comité d’organisation d’ICLR pour mettre en place un système de vérification automatique des soumissions futures
- Ces initiatives devraient contribuer à améliorer l’efficacité et la transparence de l’évaluation scientifique, ainsi qu’à renforcer les mécanismes de vérification des contenus générés par IA
1 commentaires
Réactions sur Hacker News
J’ai vérifié au hasard un article coécrit par un collègue chez Google
L’article pointé du doigt était un papier ICLR 2024, et deux auteurs cités avaient été omis tandis qu’un autre (Kyle Richardson) avait été ajouté à tort
Cette citation se trouvait dans la partie contexte, pas au cœur de l’article, et il est très probable qu’il s’agisse d’une simple coquille apparue lors d’une autocomplétion par IA
Il y a sans doute des cas graves dans le dataset, mais celui que j’ai vu relevait d’une erreur mineure corrigeable immédiatement avec une vérification du DOI
Le fait d’inclure ce type d’articles à erreur unique semble viser à maximiser l’effet de promotion produit du côté des auteurs
Le problème, c’est qu’on ne sait pas si c’est la seule erreur
La présence d’une telle erreur indique que l’article a été soumis sans vérification suffisante, et constitue une trace d’usage négligent d’un LLM
Vérifier le reste exige des connaissances spécialisées et des expériences de reproduction
Si ce phénomène se généralise, il risque d’ébranler la base même de confiance sur laquelle repose la recherche
Or ici, ils l’étaient
Si une hallucination apparaît dans les références, j’y vois un signal fort que l’ensemble de l’article a été rédigé par IA
Une simple vérification du DOI suffirait à l’éliminer, mais actuellement la validation des citations n’est pas une procédure centrale de l’évaluation des articles
Le modèle de confiance qui traite encore les citations comme du texte narratif n’est plus scalable
Je travaille à Duke University sur un projet visant à transformer les citations et leur validation en infrastructure vérifiable par machine (Liberata)
Au contraire, retirer les cas inoffensifs aurait été plus trompeur
Laisser les données parler d’elles-mêmes est l’approche la plus honnête
Ce phénomène risque de porter un coup très dur à la recherche scientifique
Il y a déjà des problèmes de manipulation de données, et si les LLM se mettent à produire des articles plausibles, la situation va empirer
Cela dit, cela conduira peut-être à traiter plus sérieusement la question de la reproductibilité (reproducibility)
Il existe très peu d’organismes prêts à financer une proposition du type : « il faut deux ans et un million de dollars pour vérifier un article douteux publié l’an dernier »
Sans changement dans la structure d’allocation des financements scientifiques, ce sera difficile à résoudre
Si l’on évalue au nombre d’articles, on obtient une avalanche de papiers médiocres, et si l’on évalue au nombre de citations, on encourage uniquement la recherche orientée découverte
Les études de reproduction sont peu citées, et au final la réputation comme les moyens de subsistance dépendent des « découvertes », donc personne n’investit dans la reproduction
Des projets comme Liberata cherchent à faire passer la culture de la publication d’une logique de « nouveauté » à une logique de validation et de reproduction
Si ce changement se produit, le désordre actuel pourrait constituer une correction nécessaire
Selon cette vision, même si tous les articles devenaient reproductibles, cela ne résoudrait pas les problèmes fondamentaux de la science
Article lié : Replication studies can’t fix science
Du côté de NeurIPS, on indique que la présence de citations hallucinées (reference hallucination) ne suffit pas à invalider l’ensemble d’un article
D’après l’article complet de Fortune, l’usage des LLM évolue rapidement, et en 2025 les évaluateurs ont reçu pour consigne de signaler les hallucinations
Leur position est que, même si 1,1 % des articles comportent des erreurs de citation, cela n’invalide pas nécessairement le contenu lui-même
On a l’impression qu’on choisit l’explication la plus inoffensive pour recouvrir l’ensemble du problème
La science traverse déjà une crise de la reproductibilité, et maintenant s’y ajoute le problème des hallucinations
Dans un contexte d’influence croissante des entreprises privées, l’avenir de l’open science paraît sombre
Même une rétractation n’entraîne pas de véritable préjudice, et la structure actuelle fait que l’espérance de la fraude reste positive
Tant que les incitations ne changent pas, la situation ne peut qu’empirer
Laisser un LLM gérer les citations ouvre finalement la voie à lui confier aussi l’interprétation des données, ce qui peut produire des résultats hallucinés
Ironiquement, les articles de recherche incluent une revue de littérature afin d’entretenir un dialogue de connaissance avec les travaux existants
Manipuler les citations avec un LLM, ce n’est pas se tenir « sur les épaules de géants », mais sur les épaules d’illusions
Lors de la relecture d’un article WACV 2024, j’ai reçu une évaluation entièrement rédigée par IA
Le reviewer avait rempli les quatre zones de texte (résumé, points forts, points faibles, appréciation globale) avec quatre avis complètement différents, qui se contredisaient mutuellement
Ce genre de situation découle de la surcharge des reviewers, et il faudrait davantage de bénévoles
(Si vous êtes en mesure d’évaluer des articles, je vous recommande de contacter directement le program chair d’une conférence que vous appréciez)
Certains articles glissent dans leurs références de faux noms comme « Firstname Lastname », « John Doe », « Jane Smith », et personne ne s’en aperçoit
Pour un doctorant qui publie son premier papier à NeurIPS, la récompense économique est énorme
La plupart des stages dans la big tech considèrent pratiquement comme indispensable un article en premier auteur à NeurIPS/ICML/ICLR
Une fois ce cap franchi, le salaire peut doubler ou tripler, et il n’est pas exagéré de dire qu’une carrière entière peut s’ouvrir
Dans une telle structure, voir apparaître des fraudes n’a rien d’étonnant
Un seul papier NeurIPS peut suffire à obtenir l’éligibilité à un poste de recherche même sans doctorat, avec plus de 300 000 dollars de rémunération annuelle
En cas de Spotlight ou de présentation Oral, cette valeur peut même atteindre sept chiffres
Tout le monde semble d’accord sur le fait que la structure actuelle des incitations produit ce type de comportement
Dans ce cas, ne faudrait-il pas utiliser le bâton plutôt que la carotte ?
L’idée serait de prévoir des sanctions destructrices de carrière lorsqu’une hallucination de LLM ou une manipulation de données est détectée
Les outils de détection d’IA ne sont pas encore suffisamment fiables, et il peut aussi s’agir d’une simple erreur BibTeX ou d’une faute introduite lors d’une correction grammaticale
De fortes sanctions ne me semblent justifiées que lorsqu’une fraude intentionnelle est établie, comme dans le cas d’une manipulation manifeste de données
Il serait intéressant d’analyser dans quelle mesure les fabrications de sources existaient déjà dans les articles d’avant 2020
Je ne fais totalement confiance ni aux LLM, ni aux détecteurs d’IA
C’est simplement sa fréquence qui s’accélère aujourd’hui
Le problème des erreurs de citation disparaîtra quand le coût de la recherche et de la collecte de données par IA deviendra 100 fois moins élevé qu’aujourd’hui
Mais à ce moment-là, il deviendra même difficile de distinguer si les articles écrits par IA reflètent réellement le monde,
et nous entrerons dans une sorte d’ère du « miroir stochastique (stochastic mirror) »