3 points par GN⁺ 2025-12-08 | 4 commentaires | Partager sur WhatsApp
  • GPTZero a détecté plus de 50 erreurs de citation et informations d’auteur erronées dans les soumissions de l’ICLR 2026
  • Chaque article a été vérifié avec son lien OpenReview pour confirmer son existence réelle et la correspondance des citations
  • De nombreux cas contenaient des auteurs inexistants, des années incorrectes et des titres de papier différents
  • Certains articles correspondent partiellement à des travaux réels, mais leurs métadonnées détaillées sont déformées
  • Il s’agit d’exemples montrant que le problème de hallucination générée par l’IA s’étend aussi aux soumissions académiques

Résultats de détection de GPTZero sur les soumissions ICLR 2026

  • GPTZero a vérifié de manière automatique les citations et les informations d’auteur des soumissions à l’ICLR 2026
    • Chaque document est accompagné d’un lien OpenReview, d’un lien de vérification GPTZero et de ses données de citation
    • Les résultats de validation montrent que plus de 50 cas comportent des citations fausses ou des auteurs inexistants

Cas d’hallucination représentatifs

  • Le papier TamperTok existe bien, mais toutes ses informations d’auteur sont incorrectes
  • Pour le papier MixtureVitae, les 3 premiers auteurs coïncident, mais les 7 autres n’existent pas
  • OrtSAE, Principled Policy Optimization, IMPQ et d’autres présentent des discordances de titre ou d’auteurs avec les travaux réels
  • PDMBench a un document similaire existant, mais l’année et le titre diffèrent
  • C3-OWD et GRF-LLM sont classés comme cas de correspondance partielle

Cas de non-correspondance complète

  • Catch-Only-One, TopoMHC, ThinkGeo, Reflexion, LOSI et d’autres citent des documents qui n’existent pas
  • SAFE-LLM, Typed Chain-of-Thought, MANTA et d’autres ont des documents similaires, mais des métadonnées incohérentes
  • AI-Assisted Medical Triage Assistant, QUART, KARMA et d’autres citent des papiers sans aucun lien

Méthode de vérification et types de résultats

  • GPTZero compare chaque citation avec des bases de données réelles (p. ex. arXiv, NeurIPS, ICLR, ACL, etc.)
    • Les résultats sont classés en “présent”, “partiel”, “non conforme” et “auteur erroné”
    • Certaines entrées sont signalées comme des cas où un vrai document existe, mais avec des auteurs, une année et un titre tous différents

Signification et implications

  • De nombreuses soumissions de l’ICLR 2026 intègrent directement des hallucinations issues de texte généré par l’IA
  • Même lors de la rédaction académique, la nécessité d’outils d’automatisation de vérification factuelle devient évidente
  • Les résultats de GPTZero montrent la nécessité de renforcer les systèmes de vérification de la fiabilité des contenus générés par l’IA

4 commentaires

 
shakespeares 2025-12-09

Y a-t-il encore beaucoup de marge de progression avec des IA répétitives au niveau de connaissances similaire ?
Sinon, j’ai l’impression que le monde ne fera que se couvrir de textes clonés issus des mêmes copies conformes, et qu’il deviendra encore plus difficile d’y distinguer le bon grain de l’ivraie.

 
GN⁺ 2025-12-08
Avis sur Hacker News
  • Je pense que ce comportement relève clairement de la faute professionnelle
    Si un chercheur de mon équipe faisait ça, il risquerait d’être licencié
    En tant que relecteur, si je vois un auteur mentir, je ne peux plus faire confiance à l’ensemble de l’article et, sur le plan éthique, il faut le rejeter immédiatement
    Les erreurs sont fréquentes, mais là on est dans une tout autre catégorie

    • Cela semble aussi relever d’une question de différences culturelles
      En Occident, on considère que l’intégrité individuelle soutient la confiance dans tout le monde académique, alors qu’au Moyen-Orient, en Inde ou en Chine, on a davantage tendance à renvoyer ce type de comportement à la responsabilité de la revue
      Si l’on ne comprend pas ces différences, la collaboration devient très confuse
  • D’après mon expérience, le principal problème qui dégrade la qualité des articles, ce sont les mauvaises citations
    C’est bien plus fréquent que l’absence pure et simple de citation : on cite souvent des sources qui ne disent pas réellement cela, ou dont on déforme le contexte
    Détecter ces erreurs demande de lire et de comprendre les textes originaux, ce qui prend énormément de temps
    Ce n’est pas une simple erreur : cela provoque une érosion du savoir, donc il faudrait des sanctions du type « trois avertissements puis exclusion »

    • Ce type de vérification est peut-être justement un domaine où les LLM peuvent être utiles
      Par exemple en comparant automatiquement les affirmations d’un article avec sa bibliographie pour vérifier si les sources les étayent réellement
    • Mais certains chercheurs déforment volontairement les choses pour produire des résultats qui plaisent à leurs financeurs (Exxon, Meta, Pfizer, etc.)
      Dans ce cas, ce n’est pas de la négligence : c’est une manipulation liée à des conflits d’intérêts
    • Les fausses citations ne sont que la partie émergée de l’iceberg, et l’abus de citations est un problème bien plus ancien et plus grave
  • Le problème n’est pas tant l’IA que la paresse et la négligence
    Si un scientifique rédige un article avec des citations inventées par un LLM, c’est simplement un mauvais scientifique
    Sans sanction sociale contre ce type de comportement, on finit par le tolérer

    • Je suis électricien industriel, et un mauvais travail électrique, seuls des professionnels peuvent le repérer
      La vérification technique exige des inspecteurs expérimentés
    • Mais dire que « l’IA n’est pas le problème » ressemble à la logique d’évitement du débat sur les armes : « le problème, ce n’est pas l’arme, c’est la personne »
      Au final, je pense que l’IA elle-même est le problème
    • Pour poursuivre la métaphore du menuisier, une étagère fabriquée par un LLM a l’air correcte en surface, mais elle est structurellement fragile
      Son apparence soignée masque d’autant mieux le problème
    • Moi aussi, j’utilise Gemini Pro pour chercher des articles, mais les citations restent très mauvaises
      Cela dit, les hallucinations ont diminué au cours de l’année écoulée, et si l’on se limite à des articles vérifiés, l’outil devient assez utile
      Mais si l’on veut que les chercheurs cessent de dépendre de ce genre d’outils, il faut d’abord changer la logique de concurrence permanente pour les financements
    • Comme le dit Bruce Schneier, n’importe qui peut créer un algorithme qu’il est incapable de vérifier
      Les LLM font de même : ils renvoient exactement la réponse que l’utilisateur voulait entendre et renforcent le biais de confirmation
      Je ne pense pas qu’il existe une manière sûre d’utiliser les LLM dans la recherche scientifique
  • Quand on lit réellement ces articles, on voit souvent que ce n’est pas seulement le texte qui a été écrit par l’IA : les idées elles-mêmes sont générées par l’IA
    En surface, cela paraît plausible, mais le contenu est absurde
    Ce serait dommage si un vrai chercheur s’était retrouvé dans cette liste à cause d’une simple erreur dans un fichier .bib

  • Avi Loeb (physicien théoricien à Harvard) a mentionné une hausse rapide des cas où des étudiants citent des articles inexistants
    Ils croient tels quels les contenus inventés par les LLM, sans même les vérifier
    Article lié : How AI is making us dumber

    • Cela dit, Loeb est aussi connu pour ses affirmations sur les ovnis, ce qui alimente des controverses sur sa crédibilité
    • Certains le considèrent comme une personne peu fiable
    • Je pense que ce phénomène vient d’une culture de l’évitement des responsabilités dans le leadership
      Montrer un mauvais exemple en haut puis réprimander ceux d’en bas, c’est une très mauvaise manière d’éduquer
  • Je me demande si cette étude a considéré toutes les citations erronées comme des hallucinations de LLM
    Il faudrait une analyse de référence pour savoir si ce type d’erreur existait déjà dans les articles antérieurs aux LLM

    • L’article comporte une section « Defining Hallucitations » qui explique la définition des fausses citations et le problème des faux positifs
      Je serais curieux de voir ce que donnerait l’application du même outil à des articles des années 2010
    • Moi aussi, pendant mes études supérieures, j’ai eu de petites erreurs dans mes fichiers .bib
      La plupart des revues vérifient les citations à partir du DOI, donc il faudrait aussi comparer avec des articles plus anciens
    • Quand on regarde les articles publiés publiquement, les traces de génération par IA sont souvent évidentes
      Les similarités sont telles qu’un LLM peut produire des articles proches à partir d’un simple sujet
    • En réalité, même avant les LLM, les humains faisaient déjà des erreurs, et les livres comme les articles en contiennent beaucoup
      La cause profonde, c’est notre système de connaissance imparfait, pas uniquement les LLM
    • En résumé, leur outil effectue bien ce type de vérification
  • L’objectif du peer review n’est pas seulement de détecter des erreurs, mais aussi d’évaluer la nouveauté et le degré d’aboutissement
    Il faut donc des incitations pour décourager la négligence
    Par exemple, un éditeur pourrait créer un système de récompense offrant une prime à ceux qui découvrent des négligences graves, ou tenir un Wall of Shame public des chercheurs récidivistes

    • Ou bien mettre en place, au moment de la soumission, un système automatique de vérification des citations qui signale les erreurs en un ou deux jours
  • J’utilise depuis 15 ans des outils de gestion bibliographique comme Zotero, et je suis toujours surpris de voir autant de citations avec des noms d’auteur erronés
    Rendre obligatoire la soumission des fichiers .bib permettrait au moins d’assurer un contrôle qualité de base via la vérification des DOI
    Le fait qu’on ne fasse même pas cette vérification élémentaire est sidérant

    • Mais Zotero n’est pas parfait non plus
      Il arrive que les auteurs citent mal leurs propres articles, et même quand le DOI est correct, les fautes dans les noms d’auteur sont fréquentes
      Les outils ont augmenté le nombre de citations et réduit le taux d’erreur, mais il reste malgré tout au moins une erreur par article
  • Sur 2000 soumissions, seulement 300 ont été examinées, et si cela a déjà permis de trouver des centaines d’articles hallucinés, l’ampleur réelle du problème doit être bien plus grande

    • 2000 soumissions pour une seule conférence : c’est en soi une échelle anormale
  • Les hallucinations des LLM sont une caractéristique inhérente à leur conception
    Dans le processus qui produit des sorties statistiquement plausibles, les fausses citations apparaissent naturellement
    Cela dit, il est techniquement possible de faire produire à une machine de vraies citations
    Mais les LLM actuels ne génèrent pas ce qu’on leur demande vraiment — des citations exactes —, ils produisent surtout des résultats qui en ont simplement l’apparence

 
dbs0829 2025-12-08

Je pense depuis longtemps que les LLM pourraient finir par freiner, plutôt que favoriser, le progrès de l’humanité, et dans ce contexte, le problème que j’avais en tête semble justement émerger. Réduire la charge cognitive ressemble presque à une drogue pour les humains. Je fais moi-même de la recherche, mais même au sein de mon équipe, nous restons vigilants car plus on utilise les modèles de LLM, plus on a l’impression de prendre l’habitude de moins réfléchir. J’imagine que ce problème va continuer à s’aggraver. Comme le volume devient trop important pour être couvert par le peer review, il va probablement falloir trouver d’autres méthodes. J’ai l’impression que le nombre de soumissions aux grandes conférences a fortement augmenté récemment, et je me demande si ce n’est pas pour une raison similaire.

 
shakespeares 2025-12-09

Je suis d’accord. À ce rythme, on dirait que le cerveau humain va continuer à rétrécir.
Au final, le scénario dans lequel l’intelligence artificielle finit par dominer l’humanité est peut-être la pensée la plus complexe que nous soyons capables d’avoir aujourd’hui. À l’avenir, il se pourrait même que nous ne puissions plus atteindre cette pensée, et qu’il n’y ait plus, sans nouvelle révolution, qu’une phase de convergence jusqu’au moment où nous serons simplement contrôlés par l’IA.