Plus de 50 cas d'hallucination détectés dans les soumissions de l'ICLR 2026

(gptzero.me)

3 points par GN⁺ 2025-12-08 | 4 commentaires | Partager sur WhatsApp

GPTZero a détecté plus de 50 erreurs de citation et informations d’auteur erronées dans les soumissions de l’ICLR 2026
Chaque article a été vérifié avec son lien OpenReview pour confirmer son existence réelle et la correspondance des citations
De nombreux cas contenaient des auteurs inexistants, des années incorrectes et des titres de papier différents
Certains articles correspondent partiellement à des travaux réels, mais leurs métadonnées détaillées sont déformées
Il s’agit d’exemples montrant que le problème de hallucination générée par l’IA s’étend aussi aux soumissions académiques

Résultats de détection de GPTZero sur les soumissions ICLR 2026

GPTZero a vérifié de manière automatique les citations et les informations d’auteur des soumissions à l’ICLR 2026
- Chaque document est accompagné d’un lien OpenReview, d’un lien de vérification GPTZero et de ses données de citation
- Les résultats de validation montrent que plus de 50 cas comportent des citations fausses ou des auteurs inexistants

Cas d’hallucination représentatifs

Le papier TamperTok existe bien, mais toutes ses informations d’auteur sont incorrectes
Pour le papier MixtureVitae, les 3 premiers auteurs coïncident, mais les 7 autres n’existent pas
OrtSAE, Principled Policy Optimization, IMPQ et d’autres présentent des discordances de titre ou d’auteurs avec les travaux réels
PDMBench a un document similaire existant, mais l’année et le titre diffèrent
C3-OWD et GRF-LLM sont classés comme cas de correspondance partielle

Cas de non-correspondance complète

Catch-Only-One, TopoMHC, ThinkGeo, Reflexion, LOSI et d’autres citent des documents qui n’existent pas
SAFE-LLM, Typed Chain-of-Thought, MANTA et d’autres ont des documents similaires, mais des métadonnées incohérentes
AI-Assisted Medical Triage Assistant, QUART, KARMA et d’autres citent des papiers sans aucun lien

Méthode de vérification et types de résultats

GPTZero compare chaque citation avec des bases de données réelles (p. ex. arXiv, NeurIPS, ICLR, ACL, etc.)
- Les résultats sont classés en “présent”, “partiel”, “non conforme” et “auteur erroné”
- Certaines entrées sont signalées comme des cas où un vrai document existe, mais avec des auteurs, une année et un titre tous différents

Signification et implications

De nombreuses soumissions de l’ICLR 2026 intègrent directement des hallucinations issues de texte généré par l’IA
Même lors de la rédaction académique, la nécessité d’outils d’automatisation de vérification factuelle devient évidente
Les résultats de GPTZero montrent la nécessité de renforcer les systèmes de vérification de la fiabilité des contenus générés par l’IA

4 commentaires

shakespeares 2025-12-09

Y a-t-il encore beaucoup de marge de progression avec des IA répétitives au niveau de connaissances similaire ?
Sinon, j’ai l’impression que le monde ne fera que se couvrir de textes clonés issus des mêmes copies conformes, et qu’il deviendra encore plus difficile d’y distinguer le bon grain de l’ivraie.

GN⁺ 2025-12-08

Avis sur Hacker News

Je pense que ce comportement relève clairement de la faute professionnelle
Si un chercheur de mon équipe faisait ça, il risquerait d’être licencié
En tant que relecteur, si je vois un auteur mentir, je ne peux plus faire confiance à l’ensemble de l’article et, sur le plan éthique, il faut le rejeter immédiatement
Les erreurs sont fréquentes, mais là on est dans une tout autre catégorie
- Cela semble aussi relever d’une question de différences culturelles
  En Occident, on considère que l’intégrité individuelle soutient la confiance dans tout le monde académique, alors qu’au Moyen-Orient, en Inde ou en Chine, on a davantage tendance à renvoyer ce type de comportement à la responsabilité de la revue
  Si l’on ne comprend pas ces différences, la collaboration devient très confuse
D’après mon expérience, le principal problème qui dégrade la qualité des articles, ce sont les mauvaises citations
C’est bien plus fréquent que l’absence pure et simple de citation : on cite souvent des sources qui ne disent pas réellement cela, ou dont on déforme le contexte
Détecter ces erreurs demande de lire et de comprendre les textes originaux, ce qui prend énormément de temps
Ce n’est pas une simple erreur : cela provoque une érosion du savoir, donc il faudrait des sanctions du type « trois avertissements puis exclusion »
- Ce type de vérification est peut-être justement un domaine où les LLM peuvent être utiles
  Par exemple en comparant automatiquement les affirmations d’un article avec sa bibliographie pour vérifier si les sources les étayent réellement
- Mais certains chercheurs déforment volontairement les choses pour produire des résultats qui plaisent à leurs financeurs (Exxon, Meta, Pfizer, etc.)
  Dans ce cas, ce n’est pas de la négligence : c’est une manipulation liée à des conflits d’intérêts
- Les fausses citations ne sont que la partie émergée de l’iceberg, et l’abus de citations est un problème bien plus ancien et plus grave
Le problème n’est pas tant l’IA que la paresse et la négligence
Si un scientifique rédige un article avec des citations inventées par un LLM, c’est simplement un mauvais scientifique
Sans sanction sociale contre ce type de comportement, on finit par le tolérer
- Je suis électricien industriel, et un mauvais travail électrique, seuls des professionnels peuvent le repérer
  La vérification technique exige des inspecteurs expérimentés
- Mais dire que « l’IA n’est pas le problème » ressemble à la logique d’évitement du débat sur les armes : « le problème, ce n’est pas l’arme, c’est la personne »
  Au final, je pense que l’IA elle-même est le problème
- Pour poursuivre la métaphore du menuisier, une étagère fabriquée par un LLM a l’air correcte en surface, mais elle est structurellement fragile
  Son apparence soignée masque d’autant mieux le problème
- Moi aussi, j’utilise Gemini Pro pour chercher des articles, mais les citations restent très mauvaises
  Cela dit, les hallucinations ont diminué au cours de l’année écoulée, et si l’on se limite à des articles vérifiés, l’outil devient assez utile
  Mais si l’on veut que les chercheurs cessent de dépendre de ce genre d’outils, il faut d’abord changer la logique de concurrence permanente pour les financements
- Comme le dit Bruce Schneier, n’importe qui peut créer un algorithme qu’il est incapable de vérifier
  Les LLM font de même : ils renvoient exactement la réponse que l’utilisateur voulait entendre et renforcent le biais de confirmation
  Je ne pense pas qu’il existe une manière sûre d’utiliser les LLM dans la recherche scientifique
Quand on lit réellement ces articles, on voit souvent que ce n’est pas seulement le texte qui a été écrit par l’IA : les idées elles-mêmes sont générées par l’IA
En surface, cela paraît plausible, mais le contenu est absurde
Ce serait dommage si un vrai chercheur s’était retrouvé dans cette liste à cause d’une simple erreur dans un fichier .bib
Avi Loeb (physicien théoricien à Harvard) a mentionné une hausse rapide des cas où des étudiants citent des articles inexistants
Ils croient tels quels les contenus inventés par les LLM, sans même les vérifier
Article lié : How AI is making us dumber
- Cela dit, Loeb est aussi connu pour ses affirmations sur les ovnis, ce qui alimente des controverses sur sa crédibilité
- Certains le considèrent comme une personne peu fiable
- Je pense que ce phénomène vient d’une culture de l’évitement des responsabilités dans le leadership
  Montrer un mauvais exemple en haut puis réprimander ceux d’en bas, c’est une très mauvaise manière d’éduquer
Je me demande si cette étude a considéré toutes les citations erronées comme des hallucinations de LLM
Il faudrait une analyse de référence pour savoir si ce type d’erreur existait déjà dans les articles antérieurs aux LLM
- L’article comporte une section « Defining Hallucitations » qui explique la définition des fausses citations et le problème des faux positifs
  Je serais curieux de voir ce que donnerait l’application du même outil à des articles des années 2010
- Moi aussi, pendant mes études supérieures, j’ai eu de petites erreurs dans mes fichiers .bib
  La plupart des revues vérifient les citations à partir du DOI, donc il faudrait aussi comparer avec des articles plus anciens
- Quand on regarde les articles publiés publiquement, les traces de génération par IA sont souvent évidentes
  Les similarités sont telles qu’un LLM peut produire des articles proches à partir d’un simple sujet
- En réalité, même avant les LLM, les humains faisaient déjà des erreurs, et les livres comme les articles en contiennent beaucoup
  La cause profonde, c’est notre système de connaissance imparfait, pas uniquement les LLM
- En résumé, leur outil effectue bien ce type de vérification
L’objectif du peer review n’est pas seulement de détecter des erreurs, mais aussi d’évaluer la nouveauté et le degré d’aboutissement
Il faut donc des incitations pour décourager la négligence
Par exemple, un éditeur pourrait créer un système de récompense offrant une prime à ceux qui découvrent des négligences graves, ou tenir un Wall of Shame public des chercheurs récidivistes
- Ou bien mettre en place, au moment de la soumission, un système automatique de vérification des citations qui signale les erreurs en un ou deux jours
J’utilise depuis 15 ans des outils de gestion bibliographique comme Zotero, et je suis toujours surpris de voir autant de citations avec des noms d’auteur erronés
Rendre obligatoire la soumission des fichiers .bib permettrait au moins d’assurer un contrôle qualité de base via la vérification des DOI
Le fait qu’on ne fasse même pas cette vérification élémentaire est sidérant
- Mais Zotero n’est pas parfait non plus
  Il arrive que les auteurs citent mal leurs propres articles, et même quand le DOI est correct, les fautes dans les noms d’auteur sont fréquentes
  Les outils ont augmenté le nombre de citations et réduit le taux d’erreur, mais il reste malgré tout au moins une erreur par article
Sur 2000 soumissions, seulement 300 ont été examinées, et si cela a déjà permis de trouver des centaines d’articles hallucinés, l’ampleur réelle du problème doit être bien plus grande
- 2000 soumissions pour une seule conférence : c’est en soi une échelle anormale
Les hallucinations des LLM sont une caractéristique inhérente à leur conception
Dans le processus qui produit des sorties statistiquement plausibles, les fausses citations apparaissent naturellement
Cela dit, il est techniquement possible de faire produire à une machine de vraies citations
Mais les LLM actuels ne génèrent pas ce qu’on leur demande vraiment — des citations exactes —, ils produisent surtout des résultats qui en ont simplement l’apparence

dbs0829 2025-12-08

Je pense depuis longtemps que les LLM pourraient finir par freiner, plutôt que favoriser, le progrès de l’humanité, et dans ce contexte, le problème que j’avais en tête semble justement émerger. Réduire la charge cognitive ressemble presque à une drogue pour les humains. Je fais moi-même de la recherche, mais même au sein de mon équipe, nous restons vigilants car plus on utilise les modèles de LLM, plus on a l’impression de prendre l’habitude de moins réfléchir. J’imagine que ce problème va continuer à s’aggraver. Comme le volume devient trop important pour être couvert par le peer review, il va probablement falloir trouver d’autres méthodes. J’ai l’impression que le nombre de soumissions aux grandes conférences a fortement augmenté récemment, et je me demande si ce n’est pas pour une raison similaire.