GPTZero découvre 100 nouvelles citations hallucinées dans les articles acceptés à NeurIPS 2025

(gptzero.me)

1 points par GN⁺ 2026-01-23 | 1 commentaires | Partager sur WhatsApp

L’outil Hallucination Check de GPTZero a analysé 4 841 articles sur les 5 290 acceptés à NeurIPS 2025 et a identifié plus de 100 « citations hallucinées »
Dans de nombreux articles, des traces de génération par IA ont été relevées, comme des auteurs inexistants, des DOI et URL erronés, ainsi que des titres fabriqués
GPTZero qualifie ces erreurs de « vibe citing », c’est-à-dire des citations rendues plausibles par mélange et transformation d’informations issues de vrais articles
Tous les cas ont été vérifiés par des experts humains ; l’outil affiche un très faible taux de faux négatifs (détection à 99 %) et signale de manière prudente les cas suspects
Ce cas est considéré comme un exemple montrant la nécessité d’automatiser la détection des erreurs de citation liées à l’IA dans la rédaction et la vérification des articles scientifiques

Résultats de l’analyse des articles NeurIPS 2025 par GPTZero

GPTZero a scanné 4 841 articles sur les 5 290 acceptés à NeurIPS 2025 et a découvert plus de 100 citations hallucinées
- Chaque cas a été vérifié humainement pour confirmer qu’il s’agissait bien de références inexistantes
- Parmi les exemples relevés figurent de nombreuses citations contenant des noms de revues, noms d’auteurs et DOI inexistants
GPTZero classe ce type d’erreurs de citation comme des traces de génération par IA (« vibe citing »)
- La forme la plus courante consiste en de fausses citations créées en combinant ou en modifiant de vrais titres et noms d’auteurs
- Certaines utilisent des titres proches d’articles réels, mais sont identifiées grâce à des incohérences sur l’année, la source ou les auteurs

Définition et types de « vibe citing »

GPTZero définit le « vibe citing » comme une « citation créée par une IA générative en combinant ou en transformant de vraies sources »
- Cela inclut des cas où les noms d’auteurs, titres, éditeurs ou DOI sont manipulés ou synthétisés
- Il peut aussi s’agir de citations partielles d’articles existants ou de noms de revues fictifs
En revanche, de simples fautes de frappe, liens morts ou numéros de page manquants sont considérés comme des erreurs humaines et exclus
GPTZero présente les différences entre citations réelles, défectueuses et hallucinées sous forme de tableau comparatif
- Exemple : transformer l’article « Deep learning » en « Samuel LeCun Jackson. Deep learning. Science & Nature, 2021. » est classé comme une citation hallucinée

Fonctionnement de l’outil Hallucination Check

Hallucination Check est un système de détection basé sur l’IA qui automatise la vérification des citations
- Il signale automatiquement les références qui ne peuvent pas être vérifiées en ligne
- Il aide les auteurs, éditeurs et reviewers à examiner rapidement les erreurs de citation
Étapes d’utilisation
1. L’auteur vérifie automatiquement les citations de son article avant soumission
2. Le reviewer identifie rapidement les citations non vérifiées
3. Les équipes éditoriales de conférences et de journaux peuvent, en parallèle de l’AI Detector, détecter à la fois les traces de rédaction par IA et les erreurs de citation

Précision de validation de GPTZero

Hallucination Check présente un très faible taux de faux négatifs (99 % de précision de détection)
- Autrement dit, la probabilité de laisser passer une véritable citation hallucinée est extrêmement faible
- En contrepartie, le taux de faux positifs est un peu plus élevé, en raison d’une détection prudente
GPTZero indique avoir repéré, avec la même méthode, des dizaines d’erreurs de citation liées à l’IA dans des cas comme ICLR 2026 ou des rapports de Deloitte

Ce que cela implique pour le monde académique et l’édition

Le cas de NeurIPS 2025 met en lumière le problème de la baisse de fiabilité des citations, dans un contexte d’usage croissant d’outils d’IA pour rédiger des articles scientifiques
GPTZero collabore avec le comité d’organisation d’ICLR pour mettre en place un système de vérification automatique des soumissions futures
Ces initiatives devraient contribuer à améliorer l’efficacité et la transparence de l’évaluation scientifique, ainsi qu’à renforcer les mécanismes de vérification des contenus générés par IA

1 commentaires

GN⁺ 2026-01-23

Réactions sur Hacker News

J’ai vérifié au hasard un article coécrit par un collègue chez Google
L’article pointé du doigt était un papier ICLR 2024, et deux auteurs cités avaient été omis tandis qu’un autre (Kyle Richardson) avait été ajouté à tort
Cette citation se trouvait dans la partie contexte, pas au cœur de l’article, et il est très probable qu’il s’agisse d’une simple coquille apparue lors d’une autocomplétion par IA
Il y a sans doute des cas graves dans le dataset, mais celui que j’ai vu relevait d’une erreur mineure corrigeable immédiatement avec une vérification du DOI
Le fait d’inclure ce type d’articles à erreur unique semble viser à maximiser l’effet de promotion produit du côté des auteurs
- Ce type d’erreur est un signe typique d’hallucination facilement vérifiable même par un non-spécialiste
  Le problème, c’est qu’on ne sait pas si c’est la seule erreur
  La présence d’une telle erreur indique que l’article a été soumis sans vérification suffisante, et constitue une trace d’usage négligent d’un LLM
  Vérifier le reste exige des connaissances spécialisées et des expériences de reproduction
  Si ce phénomène se généralise, il risque d’ébranler la base même de confiance sur laquelle repose la recherche
- L’analyse manquante consiste à montrer le taux de faux positifs de l’outil en comparaison avec les conférences d’avant les LLM (2022~2023)
- En général, quand on copie-colle une bibliographie, les noms d’auteurs ne se retrouvent pas erronés
  Or ici, ils l’étaient
  Si une hallucination apparaît dans les références, j’y vois un signal fort que l’ensemble de l’article a été rédigé par IA
- Il est intéressant de voir à quel point ce type d’erreur survient facilement et passe inaperçu
  Une simple vérification du DOI suffirait à l’éliminer, mais actuellement la validation des citations n’est pas une procédure centrale de l’évaluation des articles
  Le modèle de confiance qui traite encore les citations comme du texte narratif n’est plus scalable
  Je travaille à Duke University sur un projet visant à transformer les citations et leur validation en infrastructure vérifiable par machine (Liberata)
- Je ne pense pas que le dataset des auteurs prétendait démontrer l’impact précis des hallucinations
  Au contraire, retirer les cas inoffensifs aurait été plus trompeur
  Laisser les données parler d’elles-mêmes est l’approche la plus honnête
Ce phénomène risque de porter un coup très dur à la recherche scientifique
Il y a déjà des problèmes de manipulation de données, et si les LLM se mettent à produire des articles plausibles, la situation va empirer
Cela dit, cela conduira peut-être à traiter plus sérieusement la question de la reproductibilité (reproducibility)
- La racine du problème de reproductibilité, c’est le manque de financement
  Il existe très peu d’organismes prêts à financer une proposition du type : « il faut deux ans et un million de dollars pour vérifier un article douteux publié l’an dernier »
  Sans changement dans la structure d’allocation des financements scientifiques, ce sera difficile à résoudre
- La plupart des scientifiques reconnaissent eux aussi la crise de la reproductibilité, mais le problème vient de la structure des récompenses
  Si l’on évalue au nombre d’articles, on obtient une avalanche de papiers médiocres, et si l’on évalue au nombre de citations, on encourage uniquement la recherche orientée découverte
  Les études de reproduction sont peu citées, et au final la réputation comme les moyens de subsistance dépendent des « découvertes », donc personne n’investit dans la reproduction
- L’IA pourrait aussi devenir le révélateur de ces problèmes structurels
  Des projets comme Liberata cherchent à faire passer la culture de la publication d’une logique de « nouveauté » à une logique de validation et de reproduction
  Si ce changement se produit, le désordre actuel pourrait constituer une correction nécessaire
- Certains soutiennent que la reproductibilité elle-même a été surévaluée
  Selon cette vision, même si tous les articles devenaient reproductibles, cela ne résoudrait pas les problèmes fondamentaux de la science
  Article lié : Replication studies can’t fix science
- Je me demande si le problème des articles qui continuent à citer des travaux déjà invalidés a été résolu
Du côté de NeurIPS, on indique que la présence de citations hallucinées (reference hallucination) ne suffit pas à invalider l’ensemble d’un article
D’après l’article complet de Fortune, l’usage des LLM évolue rapidement, et en 2025 les évaluateurs ont reçu pour consigne de signaler les hallucinations
Leur position est que, même si 1,1 % des articles comportent des erreurs de citation, cela n’invalide pas nécessairement le contenu lui-même
- Mais cela ressemble à une réaction beaucoup trop indulgente
  On a l’impression qu’on choisit l’explication la plus inoffensive pour recouvrir l’ensemble du problème
  La science traverse déjà une crise de la reproductibilité, et maintenant s’y ajoute le problème des hallucinations
  Dans un contexte d’influence croissante des entreprises privées, l’avenir de l’open science paraît sombre
- Tant qu’il n’y a pas de sanction, cela continuera
  Même une rétractation n’entraîne pas de véritable préjudice, et la structure actuelle fait que l’espérance de la fraude reste positive
  Tant que les incitations ne changent pas, la situation ne peut qu’empirer
- Certains proposent de contrôler toutes les soumissions avec un outil comme GPTZero et de rejeter immédiatement tout article contenant des hallucinations
- Une erreur de citation ne prouve pas à elle seule que le contenu est faux, mais une seule manipulation suffit à ruiner la confiance dans l’ensemble
  Laisser un LLM gérer les citations ouvre finalement la voie à lui confier aussi l’interprétation des données, ce qui peut produire des résultats hallucinés
- Je pense que si une hallucination de LLM est détectée, même une seule fois, l’article devrait être retiré et les auteurs interdits de soumission
Ironiquement, les articles de recherche incluent une revue de littérature afin d’entretenir un dialogue de connaissance avec les travaux existants
Manipuler les citations avec un LLM, ce n’est pas se tenir « sur les épaules de géants », mais sur les épaules d’illusions
- D’où la blague de quelqu’un : « on se tient sur les épaules du mensonge »
- D’un point de vue philosophique, la question reste ouverte : les LLM créent-ils de nouveaux déchets, ou amplifient-ils simplement une structure déjà productrice de déchets ?
Lors de la relecture d’un article WACV 2024, j’ai reçu une évaluation entièrement rédigée par IA
Le reviewer avait rempli les quatre zones de texte (résumé, points forts, points faibles, appréciation globale) avec quatre avis complètement différents, qui se contredisaient mutuellement
Ce genre de situation découle de la surcharge des reviewers, et il faudrait davantage de bénévoles
(Si vous êtes en mesure d’évaluer des articles, je vous recommande de contacter directement le program chair d’une conférence que vous appréciez)
- La seule réaction, c’était : « wow… »
Certains articles glissent dans leurs références de faux noms comme « Firstname Lastname », « John Doe », « Jane Smith », et personne ne s’en aperçoit
- J’espère quand même qu’ils seront sanctionnés s’ils se font prendre, même plus tard
- Quelqu’un a lancé avec cynisme : « c’est comme ça qu’on fera à l’avenir »
Pour un doctorant qui publie son premier papier à NeurIPS, la récompense économique est énorme
La plupart des stages dans la big tech considèrent pratiquement comme indispensable un article en premier auteur à NeurIPS/ICML/ICLR
Une fois ce cap franchi, le salaire peut doubler ou tripler, et il n’est pas exagéré de dire qu’une carrière entière peut s’ouvrir
Dans une telle structure, voir apparaître des fraudes n’a rien d’étonnant
- En pratique, la valeur de marché d’un seul article est bien plus élevée encore
  Un seul papier NeurIPS peut suffire à obtenir l’éligibilité à un poste de recherche même sans doctorat, avec plus de 300 000 dollars de rémunération annuelle
  En cas de Spotlight ou de présentation Oral, cette valeur peut même atteindre sept chiffres
Tout le monde semble d’accord sur le fait que la structure actuelle des incitations produit ce type de comportement
Dans ce cas, ne faudrait-il pas utiliser le bâton plutôt que la carotte ?
L’idée serait de prévoir des sanctions destructrices de carrière lorsqu’une hallucination de LLM ou une manipulation de données est détectée
- Mais plus la sanction est lourde, plus il faut de garanties de procédure (due process)
  Les outils de détection d’IA ne sont pas encore suffisamment fiables, et il peut aussi s’agir d’une simple erreur BibTeX ou d’une faute introduite lors d’une correction grammaticale
  De fortes sanctions ne me semblent justifiées que lorsqu’une fraude intentionnelle est établie, comme dans le cas d’une manipulation manifeste de données
Il serait intéressant d’analyser dans quelle mesure les fabrications de sources existaient déjà dans les articles d’avant 2020
- Je serais aussi curieux de savoir à quelle fréquence les détecteurs d’IA produisent de faux positifs sur des articles antérieurs aux LLM
  Je ne fais totalement confiance ni aux LLM, ni aux détecteurs d’IA
- Au fond, il est très probable que ce genre de problème existait déjà auparavant
  C’est simplement sa fréquence qui s’accélère aujourd’hui
Le problème des erreurs de citation disparaîtra quand le coût de la recherche et de la collecte de données par IA deviendra 100 fois moins élevé qu’aujourd’hui
Mais à ce moment-là, il deviendra même difficile de distinguer si les articles écrits par IA reflètent réellement le monde,
et nous entrerons dans une sorte d’ère du « miroir stochastique (stochastic mirror) »

GPTZero découvre 100 nouvelles citations hallucinées dans les articles acceptés à NeurIPS 2025

Résultats de l’analyse des articles NeurIPS 2025 par GPTZero

Définition et types de « vibe citing »

Fonctionnement de l’outil Hallucination Check

Précision de validation de GPTZero

Ce que cela implique pour le monde académique et l’édition

À lire aussi

1 commentaires

Réactions sur Hacker News