- Pour les avis de relecture des articles du ICLR 2026, une conférence internationale de machine learning, 21 % ont été confirmés comme ayant été rédigés entièrement par l’intelligence artificielle
- L’outil de détection d’IA de Pangram Labs a analysé 75 800 avis de relecture et a trouvé des indices d’utilisation de l’IA dans plus de la moitié d’entre eux
- Certains chercheurs ont relevé des retours anormalement verbeux ou inexacts, ce qui laisse supposer une possible génération par IA
- Les organisateurs ont indiqué qu’ils vérifieraient par des outils automatisés si l’usage de l’IA contrevenait aux règles de revue, et qu’ils menaient des mesures pour regagner la confiance
- Cette affaire illustre l’urgence de garantir la transparence et la fiabilité du processus d’évaluation scientifique
Ce que révèle l’usage de l’IA dans la revue d’articles de l’ICLR 2026
- Parmi les avis de relecture des articles du ICLR 2026, environ 21 % auraient été rédigés entièrement par l’IA, et plus de la moitié auraient été influencés par l’IA, d’après l’analyse
- L’analyse a été menée par Pangram Labs, qui a examiné 19 490 articles et 75 800 avis de relecture au total
- Pangram a rendu publics les résultats avec un outil de détection de texte généré par l’IA
- La conférence a annoncé qu’elle utiliserait des outils automatisés pour vérifier si l’usage de l’IA a enfreint ses règles de relecture
- Le responsable du programme de l’ICLR 2026 a indiqué qu’il s’agissait du premier cas en grande ampleur où un problème lié aux avis d’IA a été mis en lumière
Réactions des chercheurs et processus d’enquête
- Plusieurs chercheurs ont partagé sur les réseaux sociaux des avis qu’ils soupçonnaient avoir été rédigés par l’IA
- Certains avis incluaient des « citations hallucinées » ou des retours vagues et trop verbeux
- Graham Neubig de la Carnegie Mellon University a reçu des avis anormaux et a demandé une vérification de génération par IA
- Il a publié un avis de prime sur X (anciennement Twitter), et Max Spero de Pangram Labs a répondu en lançant une enquête complète
- Pangram a expliqué avoir écrit en 12 heures le code permettant d’analyser le texte de toutes les soumissions
Résultats de l’analyse de Pangram Labs
- L’outil de Pangram fonctionne en prédisant les textes générés ou édités par un LLM (large language model, modèle de langage de grande taille)
- L’analyse a identifié 15 899 avis de relecture comme entièrement générés par l’IA, et 199 articles (1 %) entièrement rédigés par l’IA
- 61 % des articles seraient rédigés par des humains, tandis que 9 % contiendraient plus de la moitié de texte généré par l’IA
- Pangram a soumis son propre modèle à l’ICLR 2026 sous forme de préprint, et une partie de la revue de cet article a également été classée comme générée par l’IA
Réactions des chercheurs
- Desmond Elliott de l’Université de Copenhague a signalé qu’un avis de relecture de son article soumis avait mal compris le cœur du papier et mentionné des chiffres incorrects
- Son doctorant estime que cet avis a probablement été écrit par un LLM
- L’analyse de Pangram a ensuite confirmé que cet avis était effectivement entièrement généré par l’IA
- Cet avis a attribué la note la plus basse au papier, le plaçant juste au seuil d’acceptation
Réponse de la conférence et défis à venir
- Les organisateurs ont annoncé l’introduction d’un outil automatisé de détection de l’utilisation de l’IA, avec pour objectif de restaurer la fiabilité de la revue
- Le responsable du programme a déclaré que cette situation nécessitait de redéfinir la notion de confiance
- Cette affaire est un cas qui montre combien l’IA s’est infiltrée dans la relecture académique, et la garantie de la transparence de l’évaluation devient un enjeu central
Aucun commentaire pour le moment.