- Pour les avis de relecture des articles du ICLR 2026, une conférence internationale de machine learning, 21 % ont été confirmés comme ayant été rédigés entièrement par l’intelligence artificielle
- L’outil de détection d’IA de Pangram Labs a analysé 75 800 avis de relecture et a trouvé des indices d’utilisation de l’IA dans plus de la moitié d’entre eux
- Certains chercheurs ont relevé des retours anormalement verbeux ou inexacts, ce qui laisse supposer une possible génération par IA
- Les organisateurs ont indiqué qu’ils vérifieraient par des outils automatisés si l’usage de l’IA contrevenait aux règles de revue, et qu’ils menaient des mesures pour regagner la confiance
- Cette affaire illustre l’urgence de garantir la transparence et la fiabilité du processus d’évaluation scientifique
Ce que révèle l’usage de l’IA dans la revue d’articles de l’ICLR 2026
- Parmi les avis de relecture des articles du ICLR 2026, environ 21 % auraient été rédigés entièrement par l’IA, et plus de la moitié auraient été influencés par l’IA, d’après l’analyse
- L’analyse a été menée par Pangram Labs, qui a examiné 19 490 articles et 75 800 avis de relecture au total
- Pangram a rendu publics les résultats avec un outil de détection de texte généré par l’IA
- La conférence a annoncé qu’elle utiliserait des outils automatisés pour vérifier si l’usage de l’IA a enfreint ses règles de relecture
- Le responsable du programme de l’ICLR 2026 a indiqué qu’il s’agissait du premier cas en grande ampleur où un problème lié aux avis d’IA a été mis en lumière
Réactions des chercheurs et processus d’enquête
- Plusieurs chercheurs ont partagé sur les réseaux sociaux des avis qu’ils soupçonnaient avoir été rédigés par l’IA
- Certains avis incluaient des « citations hallucinées » ou des retours vagues et trop verbeux
- Graham Neubig de la Carnegie Mellon University a reçu des avis anormaux et a demandé une vérification de génération par IA
- Il a publié un avis de prime sur X (anciennement Twitter), et Max Spero de Pangram Labs a répondu en lançant une enquête complète
- Pangram a expliqué avoir écrit en 12 heures le code permettant d’analyser le texte de toutes les soumissions
Résultats de l’analyse de Pangram Labs
- L’outil de Pangram fonctionne en prédisant les textes générés ou édités par un LLM (large language model, modèle de langage de grande taille)
- L’analyse a identifié 15 899 avis de relecture comme entièrement générés par l’IA, et 199 articles (1 %) entièrement rédigés par l’IA
- 61 % des articles seraient rédigés par des humains, tandis que 9 % contiendraient plus de la moitié de texte généré par l’IA
- Pangram a soumis son propre modèle à l’ICLR 2026 sous forme de préprint, et une partie de la revue de cet article a également été classée comme générée par l’IA
Réactions des chercheurs
- Desmond Elliott de l’Université de Copenhague a signalé qu’un avis de relecture de son article soumis avait mal compris le cœur du papier et mentionné des chiffres incorrects
- Son doctorant estime que cet avis a probablement été écrit par un LLM
- L’analyse de Pangram a ensuite confirmé que cet avis était effectivement entièrement généré par l’IA
- Cet avis a attribué la note la plus basse au papier, le plaçant juste au seuil d’acceptation
Réponse de la conférence et défis à venir
- Les organisateurs ont annoncé l’introduction d’un outil automatisé de détection de l’utilisation de l’IA, avec pour objectif de restaurer la fiabilité de la revue
- Le responsable du programme a déclaré que cette situation nécessitait de redéfinir la notion de confiance
- Cette affaire est un cas qui montre combien l’IA s’est infiltrée dans la relecture académique, et la garantie de la transparence de l’évaluation devient un enjeu central
2 commentaires
Il y a pas mal d'exemples de reviews assez amusants.
https://reddit.com/r/MachineLearning/…
Avis Hacker News
Je pense que la dépendance à l’IA augmente dans l’écriture, mais la méthodologie utilisée dans cet article ressemble à une promotion de Pangram
Les détecteurs d’IA sont pour la plupart peu fiables, et peuvent même nuire aux personnes qui n’ont jamais utilisé de LLM
On peut voir une discussion connexe à ce lien
Si vous pensez à des détecteurs dépassés comme GPTZero, c’est que vous n’avez pas vu les améliorations récentes de performance
Selon un article d’économistes de l’université de Chicago, sur 1 992 documents rédigés par des humains, il y a eu 0 faux positif, avec plus de 99 % de détection des documents IA
Les utiliser pour une analyse statistique, comme dans cette étude, ne pose pas de problème
En réalité, il n’y a presque pas d’articles rédigés par l’IA, et il est naturel qu’elle soit surtout utilisée pour les reviews
Cette double morale est intéressante
Que le chiffre de 20 % soit exact ou non, tout le monde ressent une baisse de la qualité des reviews dans les grandes conférences
Dans certains domaines, il existe réellement une collusion entre reviewers, parfois même avec implication des AC
Aujourd’hui, plus personne ne relit soigneusement un article simplement parce que c’est « la bonne chose à faire en principe »
Comme il y a trop d’articles publiés pour la carrière, les reviewers y accordent moins d’attention
Selon l’analyse de Pangram, 21 % des reviews d’ICLR sont entièrement générées par IA, et plus de la moitié contiennent des traces d’IA
Mais on peut se demander ce que signifie exactement cette « preuve » et comment démontrer qu’un texte a été généré par IA
Ces outils sont adaptés à cet usage
Je sens que la plupart sont écrits avec l’IA, mais je ne peux pas le prouver, donc je ne peux rien faire
Sans informations supplémentaires comme des métadonnées, juger si un LLM l’a écrit ou non n’a pas vraiment de sens
Le titre est peut-être vrai, mais la fiabilité des détecteurs d’IA reste faible
Rien ne prouve que l’outil de Pangram ait échappé à cette mauvaise réputation
C’est expliqué en détail dans ce billet de blog
Sur 10 202 reviews d’ICLR 2022, 10 190 ont été rédigées par des humains, et 12 seulement présentaient des traces d’édition par IA
On ne peut pas condamner des individus, mais on peut être presque certain qu’un grand nombre de reviews ont été confiées à l’IA
En voyant le titre disant que « 21 % des reviews sont générées par IA », ma réaction a plutôt été de trouver cela plus bas que prévu
Comme dans les enquêtes d’accident où les « trous du fromage suisse s’alignent », c’est le résultat d’une accumulation de manquements au devoir
J’ai d’abord été surpris, mais 21 % est au contraire un chiffre étonnamment bas
En plus, ce chiffre vient d’une entreprise qui vend des détecteurs d’IA, donc il y a aussi une possibilité de faux positifs
Le point essentiel n’est pas de savoir si la review a été écrite par une IA, mais si elle est exacte
Une conférence met en avant une « évaluation par les pairs », et même une IA brillante n’est pas un pair
On a l’impression que Pangram cherche le clickbait en attisant l’indignation avec la détection d’IA
Au final, les premières victimes du monstre créé par l’IA sont les travailleurs du savoir qui l’ont fabriqué, comme les programmeurs, chercheurs et universités
Cette conférence est celle où, auparavant, un bug d’OpenReview avait brièvement exposé l’identité de tous les reviewers
Selon cet article connexe, les notes ont ensuite été réinitialisées et de nouveaux AC ont repris les décisions
À l’avenir, il vaudrait peut-être mieux fournir par défaut une review IA pour tous les articles, et faire en sorte que les reviewers humains complètent ce résultat
Ainsi, les reviewers examineraient la sortie de l’IA, et les auteurs recevraient aussi un retour prévisible
Bien sûr, les reviewers humains pourraient eux aussi réutiliser l’IA ensuite, mais ce serait également le cas des auteurs