11 points par GN⁺ 2025-11-02 | 1 commentaires | Partager sur WhatsApp
  • La catégorie informatique (CS) d’arXiv introduit de nouvelles pratiques d’examen pour les articles de revue (survey) et les position papers
  • Désormais, ces articles ne peuvent être soumis à arXiv qu’après avoir été acceptés à l’issue d’une évaluation par les pairs (peer review) dans une revue ou une conférence
  • Lors de la soumission, il faut impérativement inclure une preuve documentaire d’une évaluation par les pairs réussie (par ex. référence de revue, métadonnées DOI)
  • Les soumissions sans document de vérification ont de fortes chances d’être rejetées, une mesure destinée à répondre au flux excessif d’articles récent lié à l’IA générative
  • Avec ce changement, arXiv veut ne partager que des articles de synthèse de haute qualité et se concentrer sur la diffusion des articles de recherche fondamentaux

Nouvelles exigences de soumission

  • Les articles de revue et les position papers ne peuvent être soumis à arXiv qu’après acceptation par une revue ou une conférence et achèvement de l’évaluation par les pairs
    • La soumission doit inclure une preuve d’évaluation par les pairs réussie
    • En l’absence de justificatif, il y a un risque élevé de rejet
  • Une évaluation au niveau workshop n’est pas considérée comme une évaluation par les pairs traditionnelle et ne satisfait pas aux exigences de soumission

Contexte de la politique

  • Dans la politique officielle d’arXiv, les articles de revue et les position papers ne sont pas officiellement des types de contenu autorisés
    • Par le passé, seul un petit nombre d’articles de haute qualité était accepté à la discrétion des modérateurs
  • Avec la diffusion récente de l’IA générative et des grands modèles de langage (LLM), le nombre d’articles de revue de faible qualité a fortement augmenté
    • La plupart se limitent à de simples listes bibliographiques, avec peu de discussion de recherche originale
  • Dans ce contexte, la charge de revue des modérateurs est devenue excessive, au point de nuire à l’objectif central d’arXiv (le partage des articles de recherche)

Objectifs du changement

  • Permettre de trouver facilement sur arXiv uniquement des articles de revue et des position papers utiles, rédigés par des experts
  • Alléger la charge de travail des modérateurs et leur permettre de se concentrer sur l’examen des types de contenu officiels
  • Préserver l’objectif principal d’arXiv : favoriser une découverte scientifique rapide et libre

Différences entre avant et maintenant

  • Par le passé, les articles de revue étaient souvent rédigés à la demande d’un petit nombre de chercheurs reconnus ou d’institutions officielles (par ex. Annual Reviews, IEEE, Computing Surveys), ce qui garantissait leur qualité
  • Les position papers provenaient eux aussi, dans la plupart des cas, de sociétés savantes ou d’organismes publics de recherche (par ex. Computing Research Association, National Academies)
  • Aujourd’hui, des centaines d’articles de revue sont soumis chaque mois, et le contrôle qualité est devenu difficile à maintenir

Recours à des organismes d’évaluation externes

  • arXiv ne dispose pas en interne des effectifs ni des ressources nécessaires pour effectuer lui-même la vérification de qualité
  • À la place, il reconnaît la validation de structures externes d’évaluation fiables (conférences et revues)
    • Ces structures mènent des examens approfondis sur des sujets liés à l’IA comme la vie privée, l’éthique, la sûreté et la sécurité
  • Cela permet à arXiv de ne partager que des articles dont la qualité est garantie

Nouvelle soumission et exceptions

  • Un article rejeté faute d’évaluation par les pairs achevée peut être soumis à nouveau via une procédure d’appel (appeal) une fois l’évaluation terminée
    • En revanche, une nouvelle soumission est impossible sans appel approuvé
  • Les articles de recherche traitant de l’impact sociétal de la science et de la technologie (cs.CY, physics.soc-ph, etc.) ne sont pas concernés par ce changement

Possibilité d’extension à d’autres catégories

  • Chaque catégorie d’arXiv est gérée de manière indépendante par des modérateurs experts
  • Toutes les catégories suivent la même politique, mais les articles de revue restent par principe un type de contenu non officiel
  • Si d’autres domaines connaissent eux aussi une forte hausse des articles produits à l’aide de LLM, des mesures similaires de renforcement de l’examen pourraient être introduites
  • Le cas échéant, une annonce officielle sera faite

1 commentaires

 
GN⁺ 2025-11-02
Avis sur Hacker News
  • Cela souligne que le problème vient d’une structure qui récompense selon la quantité produite
    Si l’on incite les chercheurs en fonction du nombre d’articles, ils finissent par exploiter le système en produisant un maximum de papiers avec une qualité minimale
    Les systèmes de récompense fondés sur les vues ou les impressions publicitaires provoquent eux aussi des comportements déformés
    Au final, le monde en ligne semble conçu non pas pour les humains, mais pour l’optimisation algorithmique

    • On aurait entendu dire qu’une structure similaire existe aussi dans le secteur de l’aide aux sans-abri
      À San Francisco, le montant des financements accordés aux ONG dépendrait du nombre de sans-abri aidés, ce qui crée en pratique une incitation à maintenir leur présence plutôt qu’à la réduire
    • Certains estiment qu’il ne faut pas blâmer les LLM
      Le vrai problème, ce sont les êtres humains et les systèmes d’incitation, pas l’outil lui-même
    • L’attrait même des LLM réside dans leur capacité à produire rapidement
      Une culture qui mesure déjà la performance avec des indicateurs vides de sens comme le nombre de lignes de code ou de commits est problématique à la base
      Nous semblons vivre dans un « enfer de Goodhart » — un monde où la manipulation des métriques est devenue l’objectif
      C’est dit sur le ton de la plaisanterie, mais cela tourne en dérision une réalité d’entreprise où ce management centré sur les indicateurs finit par provoquer des pannes majeures
    • Cela amène à se demander à quoi pourrait ressembler un système de récompense centré sur la qualité
      La question posée est celle d’un monde en ligne centré sur l’humain, et de la manière dont les créateurs de contenu devraient être rémunérés
    • D’autres pensent que ce problème est mal compris
      Ils insistent sur le fait que le vrai cœur du sujet n’est pas le nombre d’articles, mais l’obtention de financements et la qualité des propositions
  • Il y a eu un malentendu selon lequel arXiv n’accepterait plus les prépublications (preprints)
    En réalité, la règle a seulement changé pour les « articles de revue » et les « position papers », qui ne peuvent désormais être soumis qu’après acceptation par un journal ou une conférence à l’issue d’une évaluation

    • Il est expliqué qu’une telle mesure est nécessaire parce que les LLM peuvent facilement générer des articles d’opinion sans contribution technique
    • Il ne s’agit pas d’un changement de politique : à l’origine déjà, ce type de texte ne relevait pas du périmètre autorisé d’arXiv
    • La version du journal ne peut pas être mise en ligne, mais un texte au contenu identique hors mise en forme peut l’être
    • Certains estiment qu’arXiv est en train de devenir une sorte de blog pour CV, et que ce changement pourrait au contraire être positif
    • Les articles de recherche restent toujours soumissibles
  • Une proposition a émergé pour introduire un système de réputation sur arXiv
    L’idée serait que les auteurs publient aussi une clé PGP publique afin de former un réseau de confiance

    • Sur une base de web-of-trust, n’importe qui pourrait recommander un article, puis un réseau de confiance serait calculé pour évaluer sa qualité
      Ce serait moins fermé que les revues académiques existantes, tout en restant plus structuré qu’une ouverture totale
    • Il a aussi été proposé qu’arXiv conserve les preprints gratuits, tout en offrant un service de relecture par des experts payant
    • Il est rapporté, de façon satirique, qu’un professeur aurait proposé d’« exclure les chercheurs hors Ivy League » — une manière de pointer l’iniquité potentielle des systèmes de réputation
  • Certains pointent les problèmes de contrôle qualité d’arXiv
    Rien qu’en octobre, il y a eu 26 000 soumissions (lien vers les statistiques), et les articles non vérifiés s’accumulent
    Il est suggéré qu’un petit frais de soumission pourrait réduire le spam

    • D’autres pensent toutefois qu’au lieu de faire payer l’ensemble des utilisateurs, il faudrait sanctionner directement les usagers des LLM qui abusent du système
    • Une autre analyse considère que le problème n’est pas l’argent, mais le fait que les articles apportent des bénéfices concrets en matière d’emploi, d’admission ou de visa
    • Si des frais de soumission existaient, ils devraient au minimum couvrir le coût d’un examen sommaire, avec éventuellement des niveaux comme « non examiné », « examen rapide », « examen complet » ou « vérification de reproductibilité »
    • Certains avancent aussi que, comme sur Metafilter, ne serait-ce qu’un droit d’entrée de 1 dollar pourrait déjà avoir un effet dissuasif sur le spam
  • Des commentaires ont signalé que le titre du billet HN était trompeur
    En réalité, une formulation plus exacte serait : « En raison de la forte hausse des articles de revue rédigés par l’IA, le domaine CS d’arXiv exige une évaluation par les pairs pour les articles de revue »

    • Le « Due to LLMs » du titre initial pouvait être compris à tort comme désignant des articles « écrits par les LLM »
    • Comme l’objectif initial d’arXiv est la diffusion avant évaluation, cette mesure ne porte pas atteinte à cette valeur
    • Certains regrettent toutefois de ne plus pouvoir profiter de l’humour étrange produit par certains articles générés par LLM
  • Certains se demandent quelles sont les motivations des personnes qui publient sur arXiv des articles entièrement générés par l’IA
    Le processus de soumission est pourtant fastidieux, d’où la question de savoir pourquoi elles le font malgré tout

    • Il est expliqué qu’une ancienne pratique du monde académique consistant à gonfler le nombre d’articles pour manipuler le h-index est aujourd’hui accélérée par les LLM
    • Dans des cas comme le visa EB-1, le fait d’être auteur d’articles académiques constitue un critère d’évaluation, ce qui donne une grande valeur à la simple présence formelle d’un article
    • Certains supposent aussi qu’il peut simplement s’agir d’affichage de résultats, destiné à impressionner la famille ou l’employeur
  • Il est souligné que la plupart des articles de faible qualité portent sur des sujets liés à l’IA
    Beaucoup de personnes, lorsqu’elles découvrent les LLM, tentent une expérience autoréférentielle du type « demandons à un LLM d’écrire sur les LLM »
    Le résultat est alors une synthèse fourre-tout des données d’origine

    • Des articles générés par l’IA ont aussi été repérés dans d’autres disciplines que l’informatique, et certains citent même des articles inexistants
    • Il est souhaité qu’arXiv ne se restreigne pas au seul critère de « recherche originale uniquement ». Il existe déjà des articles de recherche générés par l’IA, et ils sont plus difficiles à détecter
    • La valeur d’arXiv réside dans les retours précoces et l’ouverture ; n’autoriser que des articles déjà évalués par les pairs reviendrait de fait à dire « n’entrez pas »
  • Cette mesure d’arXiv est évaluée positivement par certains
    Dans des domaines qui évoluent rapidement comme les multi-agent systems ou les agentic LLMs, des critères clairs sont jugés nécessaires
    Exiger des métadonnées lisibles par machine sur le type d’article, les liens vers les données et le code, ou encore le périmètre des benchmarks, pourrait renforcer la fiabilité
    Standardiser des tags comme « Survey » ou « Position » ainsi qu’une checklist de reproductibilité permettrait de préserver la qualité sans bloquer les idées de départ

  • arXiv faisait déjà face depuis longtemps au problème des articles de faible qualité à visée autopromotionnelle
    C’était déjà le cas avant les LLM

    • Mais arXiv reste par nature une plateforme de diffusion rapide des résultats, si bien que cette baisse de qualité est vue moins comme une « souffrance » que comme un fonctionnement où les utilisateurs doivent faire eux-mêmes le tri