Nouvelle politique d’arXiv : 1 an d’interdiction d’utilisation pour les références hallucinées
(twitter.com/tdietterich)- Le Code of Conduct d’arXiv stipule que toute personne figurant comme auteur est responsable de l’intégralité de l’article, quelle que soit la manière dont son contenu a été généré
- Même si des formulations inappropriées, du plagiat, des biais, des erreurs ou de mauvaises références produits par une IA générative se retrouvent dans l’article, la responsabilité incombe à l’auteur
- arXiv considère que s’il existe des preuves manifestes que l’auteur n’a pas vérifié les résultats générés par un LLM, alors l’ensemble de l’article ne peut pas être considéré comme fiable
- La sanction est une interdiction d’utiliser arXiv pendant 1 an ; ensuite, les soumissions devront d’abord être acceptées dans une revue ou un venue académique réputé avec évaluation par les pairs
- Les références hallucinées ou des méta-commentaires de LLM comme « remplir avec les vrais chiffres de l’expérience » sont considérés comme des preuves manifestes
Responsabilité et sanctions pour les auteurs sur arXiv
- Le Code of Conduct d’arXiv précise que le fait d’être nommé comme auteur d’un article implique d’en assumer la responsabilité intégrale, indépendamment de la façon dont le contenu a été produit
- Si un écrit scientifique contient des formulations inappropriées, du contenu plagié, biaisé, erroné, des fautes, de mauvaises références ou des éléments trompeurs générés par des outils d’IA générative, la responsabilité revient à l’auteur
- arXiv estime que s’il y a des preuves manifestes dans une soumission montrant que l’auteur n’a pas vérifié les résultats générés par un LLM, alors aucun élément de l’article ne peut être jugé fiable
- La sanction est une interdiction d’utiliser arXiv pendant 1 an ; pour soumettre à nouveau sur arXiv ensuite, il faudra d’abord avoir été accepté dans un venue académique réputé avec évaluation par les pairs
- Les preuves manifestes incluent les références hallucinées et les méta-commentaires de LLM
- Ex. : « here is a 200 word summary; would you like me to make any changes? »
- Ex. : « the data in this table is illustrative, fill it in with the real numbers from your experiments »
1 commentaires
Réactions sur Hacker News
Si la sanction est une interdiction d’utiliser arXiv pendant un an, puis la condition que les soumissions suivantes soient d’abord acceptées par une revue à comité de lecture reconnue, alors ce serait vraiment une bonne chose pour la science
arXiv est gratuit, mais c’est plus proche d’un privilège que d’un droit
Cela dit, ce n’est pas clairement visible sur https://info.arxiv.org/help/policies/index.html, donc c’est peut-être encore au stade du projet, ou bien je n’ai pas assez bien cherché
Comme l’a dit un certain docteur, l’essentiel d’une machine apocalyptique, c’est qu’elle ne sert à rien si on la cache
Ce serait utile pour vérifier les références, mais ça ne réduirait sans doute pas beaucoup la mauvaise science qui accompagne les références hallucinées
arXiv ne vérifie pas les soumissions de manière si approfondie, alors comment pourraient-ils le savoir ?
On parle d’« erreur » ou de « faute », mais ils se contentent de vérifier par système automatisé si les exigences de base sont remplies, puis parfois d’un examen humain superficiel ; vérifier toutes les références à grande échelle est impossible
Ce serait vouloir faire quelque chose qui ressemble à une revue par les pairs dans un dépôt de preprints qui reçoit un volume 100 fois supérieur à celui des journaux
Et il y a en plus un énorme écart entre mettre quelque chose sur arXiv et passer une revue par les pairs
Personnellement, en mathématiques, j’ai probablement essuyé plus de dix refus en comité de lecture, alors que mes articles ont été déposés sans problème sur arXiv math
La revue par les pairs ne juge pas seulement si c’est nouveau et correct, mais aussi si c’est « intéressant pour la communauté mathématique », ce qui est intrinsèquement subjectif et bien plus difficile que d’être accepté sur arXiv
Un professeur célèbre de théorie des nombres a fait l’éloge de l’article lors du parrainage, et un autre professeur m’a aussi recommandé de le publier par e-mail, pourtant il a déjà été refusé trois fois et j’attends encore
Exiger une publication dans une revue à comité de lecture pourrait fermer arXiv à de nombreux chercheurs pour toujours, et irait à l’encontre même de l’idée de preprint
Il ne s’agit que d’une seule citation hallucinée, pas d’une fraude
Cela ne reflète en rien le contenu ni la qualité de la recherche de cette personne
Pour ce type de première erreur mineure, une interdiction d’un an me paraît déjà suffisante
Les gens font des erreurs, et beaucoup peuvent en tirer une leçon
Il n’y a aucune raison de détruire durablement la progression dans la vie de quelqu’un ni sa capacité à contribuer à l’humanité simplement parce qu’une IA a halluciné une référence une fois dans toute son existence
C’est punitif plutôt que réparateur
C’est une mesure bienvenue, mais fondamentalement j’aimerais surtout qu’on résolve mieux le problème de la génération facile d’entrées BibTeX correctes pour les articles cités
Les informations de citation pour un article donné peuvent venir de sources très diverses : revues d’éditeurs, conférences, preprints, etc.
Un même article peut aussi exister à plusieurs endroits, comme sur arXiv et sur le site d’une conférence, avec des détails légèrement différents
Grâce à des outils comme Zotero, extraire une citation depuis une page de publication est devenu bien plus simple, mais les détails BibTeX extraits posent encore des problèmes
Les noms d’auteurs et les titres sont généralement bien récupérés, mais il faut encore vérifier manuellement que l’éditeur, l’année, le volume, le numéro, les pages, l’URL, etc. ont été extraits correctement et s’affichent bien en format LaTeX
Chaque publication peut aussi avoir son propre style de citation
En l’absence d’une méthode unifiée pour extraire facilement des données de citation cohérentes, il est malheureusement tentant de prendre le raccourci de données de citation générées par IA
Je ne sais pas vraiment si les citations hallucinées apparaissent dans le corps du texte ou dans un fichier BibTeX séparé, donc il est possible que je comprenne mal le sujet
https://zbib.org/
https://xcancel.com/tdietterich/status/2055000956144935055
La question est de savoir comment détecter à grande échelle les références hallucinées
Je ne sais pas s’il s’agit d’un contrôle manuel par échantillonnage ou d’une validation automatique des DOI
L’orientation de la politique me semble juste, mais son application est difficile
Très bien
Si vous n’avez pas le temps de relire soigneusement la sortie d’un LLM, moi non plus je n’ai pas le temps de la lire
En avez-vous déjà pris un au hasard pour l’étudier vraiment à fond ?
Pour l’instant, je ne vois rien ici sur le critère de « reconnue »
Selon quels critères décide-t-on qu’un comité de lecture est reconnu ?
Il faut une vérification prudente avant ce type de sanction
Si quelqu’un a soumis un article en ajoutant des noms sans autorisation explicite, est-ce que tout le monde est banni ?
Je suis d’accord que ce serait une bonne direction si c’était bien mis en œuvre
Dans ce cas, on pourrait bannir tout le monde d’arXiv avec un article d’une seule phrase
Voir les partisans surchauffés des LLM habituels sur Twitter se mettre en colère et répondre à cette mesure est un signal assez révélateur
Comme dans les commentaires sur la pollution due aux LLM, certaines personnes n’acceptent pas que d’autres puissent ne pas aimer les LLM et se fâchent dès qu’il y a le moindre obstacle à leur adoption rapide
On dirait que le consensus sur HN serait qu’il faut accélérer à outrance l’adoption des LLM partout
C’est absurde, mais en même temps très typique de HN
Bien. La littérature académique est en situation de crise à cause de toutes sortes de déchets de mauvaise qualité
Tenir les gens responsables d’hallucinations faciles à détecter ne peut être qu’une bonne chose
J’ai fait un doctorat de physique il y a environ 40 ans, et les références erronées étaient déjà un problème à l’époque
Un collègue a soumis un article en laissant littéralement des phrases de déchets IA dans le texte, et a reçu une demande de révision sévère
Il faut relire les brouillons avant soumission
Les évaluateurs les repèrent
Comme j’utilise un lecteur d’écran, je lis souvent les articles en TeX source brut, et j’y ai vu de tout
des insultes, des injures contre des évaluateurs et des professeurs, des aveux de fraude, jusqu’à des instructions à des co-auteurs avant soumission pour ajouter une nouvelle fraude afin de couvrir une fraude précédente
C’est bien plus rare qu’on ne le penserait, moins de 1 % des articles, mais cela existe vraiment
Faire passer une détection de fraude basée sur un LLM sur le source TeX des nouveaux articles arXiv pourrait être utile
Cela n’attraperait pas tout, mais permettrait peut-être d’en attraper quelques-uns parmi les fraudeurs les plus stupides
Il y a aussi des aspects positifs : on peut y trouver des affirmations plus fortes qui n’ont pas passé l’évaluation, des explications supplémentaires retirées à cause des limites de pages des conférences, ou des résultats expérimentaux que les auteurs n’ont pas jugé dignes d’être inclus
Il faut aborder ce genre de choses avec beaucoup de prudence, mais cela peut parfois être réellement utile