- GPTZero a détecté plus de 50 erreurs de citation et informations d’auteur erronées dans les soumissions de l’ICLR 2026
- Chaque article a été vérifié avec son lien OpenReview pour confirmer son existence réelle et la correspondance des citations
- De nombreux cas contenaient des auteurs inexistants, des années incorrectes et des titres de papier différents
- Certains articles correspondent partiellement à des travaux réels, mais leurs métadonnées détaillées sont déformées
- Il s’agit d’exemples montrant que le problème de hallucination générée par l’IA s’étend aussi aux soumissions académiques
Résultats de détection de GPTZero sur les soumissions ICLR 2026
- GPTZero a vérifié de manière automatique les citations et les informations d’auteur des soumissions à l’ICLR 2026
- Chaque document est accompagné d’un lien OpenReview, d’un lien de vérification GPTZero et de ses données de citation
- Les résultats de validation montrent que plus de 50 cas comportent des citations fausses ou des auteurs inexistants
Cas d’hallucination représentatifs
- Le papier TamperTok existe bien, mais toutes ses informations d’auteur sont incorrectes
- Pour le papier MixtureVitae, les 3 premiers auteurs coïncident, mais les 7 autres n’existent pas
- OrtSAE, Principled Policy Optimization, IMPQ et d’autres présentent des discordances de titre ou d’auteurs avec les travaux réels
- PDMBench a un document similaire existant, mais l’année et le titre diffèrent
- C3-OWD et GRF-LLM sont classés comme cas de correspondance partielle
Cas de non-correspondance complète
- Catch-Only-One, TopoMHC, ThinkGeo, Reflexion, LOSI et d’autres citent des documents qui n’existent pas
- SAFE-LLM, Typed Chain-of-Thought, MANTA et d’autres ont des documents similaires, mais des métadonnées incohérentes
- AI-Assisted Medical Triage Assistant, QUART, KARMA et d’autres citent des papiers sans aucun lien
Méthode de vérification et types de résultats
- GPTZero compare chaque citation avec des bases de données réelles (p. ex. arXiv, NeurIPS, ICLR, ACL, etc.)
- Les résultats sont classés en “présent”, “partiel”, “non conforme” et “auteur erroné”
- Certaines entrées sont signalées comme des cas où un vrai document existe, mais avec des auteurs, une année et un titre tous différents
Signification et implications
- De nombreuses soumissions de l’ICLR 2026 intègrent directement des hallucinations issues de texte généré par l’IA
- Même lors de la rédaction académique, la nécessité d’outils d’automatisation de vérification factuelle devient évidente
- Les résultats de GPTZero montrent la nécessité de renforcer les systèmes de vérification de la fiabilité des contenus générés par l’IA
4 commentaires
Y a-t-il encore beaucoup de marge de progression avec des IA répétitives au niveau de connaissances similaire ?
Sinon, j’ai l’impression que le monde ne fera que se couvrir de textes clonés issus des mêmes copies conformes, et qu’il deviendra encore plus difficile d’y distinguer le bon grain de l’ivraie.
Avis sur Hacker News
Je pense que ce comportement relève clairement de la faute professionnelle
Si un chercheur de mon équipe faisait ça, il risquerait d’être licencié
En tant que relecteur, si je vois un auteur mentir, je ne peux plus faire confiance à l’ensemble de l’article et, sur le plan éthique, il faut le rejeter immédiatement
Les erreurs sont fréquentes, mais là on est dans une tout autre catégorie
En Occident, on considère que l’intégrité individuelle soutient la confiance dans tout le monde académique, alors qu’au Moyen-Orient, en Inde ou en Chine, on a davantage tendance à renvoyer ce type de comportement à la responsabilité de la revue
Si l’on ne comprend pas ces différences, la collaboration devient très confuse
D’après mon expérience, le principal problème qui dégrade la qualité des articles, ce sont les mauvaises citations
C’est bien plus fréquent que l’absence pure et simple de citation : on cite souvent des sources qui ne disent pas réellement cela, ou dont on déforme le contexte
Détecter ces erreurs demande de lire et de comprendre les textes originaux, ce qui prend énormément de temps
Ce n’est pas une simple erreur : cela provoque une érosion du savoir, donc il faudrait des sanctions du type « trois avertissements puis exclusion »
Par exemple en comparant automatiquement les affirmations d’un article avec sa bibliographie pour vérifier si les sources les étayent réellement
Dans ce cas, ce n’est pas de la négligence : c’est une manipulation liée à des conflits d’intérêts
Le problème n’est pas tant l’IA que la paresse et la négligence
Si un scientifique rédige un article avec des citations inventées par un LLM, c’est simplement un mauvais scientifique
Sans sanction sociale contre ce type de comportement, on finit par le tolérer
La vérification technique exige des inspecteurs expérimentés
Au final, je pense que l’IA elle-même est le problème
Son apparence soignée masque d’autant mieux le problème
Cela dit, les hallucinations ont diminué au cours de l’année écoulée, et si l’on se limite à des articles vérifiés, l’outil devient assez utile
Mais si l’on veut que les chercheurs cessent de dépendre de ce genre d’outils, il faut d’abord changer la logique de concurrence permanente pour les financements
Les LLM font de même : ils renvoient exactement la réponse que l’utilisateur voulait entendre et renforcent le biais de confirmation
Je ne pense pas qu’il existe une manière sûre d’utiliser les LLM dans la recherche scientifique
Quand on lit réellement ces articles, on voit souvent que ce n’est pas seulement le texte qui a été écrit par l’IA : les idées elles-mêmes sont générées par l’IA
En surface, cela paraît plausible, mais le contenu est absurde
Ce serait dommage si un vrai chercheur s’était retrouvé dans cette liste à cause d’une simple erreur dans un fichier
.bibAvi Loeb (physicien théoricien à Harvard) a mentionné une hausse rapide des cas où des étudiants citent des articles inexistants
Ils croient tels quels les contenus inventés par les LLM, sans même les vérifier
Article lié : How AI is making us dumber
Montrer un mauvais exemple en haut puis réprimander ceux d’en bas, c’est une très mauvaise manière d’éduquer
Je me demande si cette étude a considéré toutes les citations erronées comme des hallucinations de LLM
Il faudrait une analyse de référence pour savoir si ce type d’erreur existait déjà dans les articles antérieurs aux LLM
Je serais curieux de voir ce que donnerait l’application du même outil à des articles des années 2010
.bibLa plupart des revues vérifient les citations à partir du DOI, donc il faudrait aussi comparer avec des articles plus anciens
Les similarités sont telles qu’un LLM peut produire des articles proches à partir d’un simple sujet
La cause profonde, c’est notre système de connaissance imparfait, pas uniquement les LLM
L’objectif du peer review n’est pas seulement de détecter des erreurs, mais aussi d’évaluer la nouveauté et le degré d’aboutissement
Il faut donc des incitations pour décourager la négligence
Par exemple, un éditeur pourrait créer un système de récompense offrant une prime à ceux qui découvrent des négligences graves, ou tenir un Wall of Shame public des chercheurs récidivistes
J’utilise depuis 15 ans des outils de gestion bibliographique comme Zotero, et je suis toujours surpris de voir autant de citations avec des noms d’auteur erronés
Rendre obligatoire la soumission des fichiers
.bibpermettrait au moins d’assurer un contrôle qualité de base via la vérification des DOILe fait qu’on ne fasse même pas cette vérification élémentaire est sidérant
Il arrive que les auteurs citent mal leurs propres articles, et même quand le DOI est correct, les fautes dans les noms d’auteur sont fréquentes
Les outils ont augmenté le nombre de citations et réduit le taux d’erreur, mais il reste malgré tout au moins une erreur par article
Sur 2000 soumissions, seulement 300 ont été examinées, et si cela a déjà permis de trouver des centaines d’articles hallucinés, l’ampleur réelle du problème doit être bien plus grande
Les hallucinations des LLM sont une caractéristique inhérente à leur conception
Dans le processus qui produit des sorties statistiquement plausibles, les fausses citations apparaissent naturellement
Cela dit, il est techniquement possible de faire produire à une machine de vraies citations
Mais les LLM actuels ne génèrent pas ce qu’on leur demande vraiment — des citations exactes —, ils produisent surtout des résultats qui en ont simplement l’apparence
Je pense depuis longtemps que les LLM pourraient finir par freiner, plutôt que favoriser, le progrès de l’humanité, et dans ce contexte, le problème que j’avais en tête semble justement émerger. Réduire la charge cognitive ressemble presque à une drogue pour les humains. Je fais moi-même de la recherche, mais même au sein de mon équipe, nous restons vigilants car plus on utilise les modèles de LLM, plus on a l’impression de prendre l’habitude de moins réfléchir. J’imagine que ce problème va continuer à s’aggraver. Comme le volume devient trop important pour être couvert par le peer review, il va probablement falloir trouver d’autres méthodes. J’ai l’impression que le nombre de soumissions aux grandes conférences a fortement augmenté récemment, et je me demande si ce n’est pas pour une raison similaire.
Je suis d’accord. À ce rythme, on dirait que le cerveau humain va continuer à rétrécir.
Au final, le scénario dans lequel l’intelligence artificielle finit par dominer l’humanité est peut-être la pensée la plus complexe que nous soyons capables d’avoir aujourd’hui. À l’avenir, il se pourrait même que nous ne puissions plus atteindre cette pensée, et qu’il n’y ait plus, sans nouvelle révolution, qu’une phase de convergence jusqu’au moment où nous serons simplement contrôlés par l’IA.