2 points par GN⁺ 2026-02-02 | 1 commentaires | Partager sur WhatsApp
  • Wiki Education a étudié de manière systématique, tout au long de 2025, l’impact de l’IA générative (ChatGPT, etc.) sur l’édition de Wikipédia
  • En analysant 3 078 articles rédigés depuis 2022 à l’aide de l’outil de détection d’IA Pangram, l’organisation a constaté que 178 articles étaient soupçonnés d’avoir été rédigés par IA, et que plus des deux tiers d’entre eux ont échoué à la vérification
  • En réponse, elle a renforcé la formation des participants et mis en place des consignes d’usage de l’IA et un système de détection en temps réel pour bloquer le copier-coller direct de texte généré par IA
  • L’IA est inadaptée à la rédaction de brouillons d’articles, mais peut être utile à l’étape de recherche, notamment pour explorer des sources, trouver des références et repérer des lacunes de contenu
  • Wiki Education souligne que l’automatisation de la détection de l’IA et l’élargissement de la formation des éditeurs sont essentiels pour préserver la fiabilité de Wikipédia

La relation entre l’IA générative et Wikipédia

  • Wiki Education représente environ 19 % des nouveaux contributeurs actifs de la Wikipédia anglophone et a analysé l’impact et les risques liés à l’IA générative
    • Avec la banalisation de chatbots comme ChatGPT, Gemini et Claude, les tentatives d’usage dans l’édition de Wikipédia se sont multipliées
    • L’organisation a évalué les usages de l’IA par les participants et en a publié les résultats
  • En conclusion, elle pose un principe clair : il ne faut pas copier-coller tel quel la sortie d’une IA dans Wikipédia

Détection de l’IA et résultats de vérification

  • Parmi les articles créés après le lancement de ChatGPT en 2022, 178 ont été détectés par Pangram comme rédigés par IA
    • Avant 2022, aucun signe d’usage de l’IA n’avait été observé, puis le phénomène a augmenté progressivement
  • Seuls 7 % utilisaient de fausses sources ; les autres citaient de vraies sources, mais plus de 2/3 ont échoué à la vérification
    • Les informations citées ne figuraient pas dans les sources mentionnées, rendant les faits impossibles à confirmer
  • Wiki Education a mobilisé des ressources humaines importantes pour nettoyer les articles en échec de vérification
    • Certains articles ont été réduits à l’état de stub, d’autres proposés à la suppression (PROD), et d’autres encore jugés irrécupérables

Améliorations du programme et système de détection de l’IA

  • Avec le soutien de Pangram, un dispositif d’analyse en temps réel des contributions des participants a été mis en place
    • La plateforme interne Dashboard permet le suivi des modifications et l’envoi d’alertes automatiques
  • Un nouveau module de formation, “Using generative AI tools with Wikipedia”, a été introduit
    • Il distingue clairement les usages autorisés et interdits de l’IA
    • Son message central est : « ne pas copier-coller de texte généré par IA »
  • Au second semestre 2025, sur 1 406 alertes d’édition liées à l’IA, seulement 22 % concernaient réellement l’espace principal des articles
    • La majorité a été détectée au stade du bac à sable d’entraînement
  • Pangram a produit quelques faux positifs sur des textes non phrastiques, comme le formatage ou les listes, mais a conservé une forte précision sur l’analyse des phrases du corps de texte

Comportements d’usage de l’IA et effet de la formation

  • Au semestre d’automne 2025, parmi 6 357 personnes, seulement 5 % ont été détectées avec de l’IA dans de vrais articles, et la plupart des ajouts ont été annulés manuellement ou automatiquement
    • Participants, enseignants et experts Wikipédia ont coopéré pour supprimer le texte généré par IA
  • Les enseignants ont évalué les travaux des étudiants en se concentrant sur la « vérifiabilité » (verifiability)
    • Ils ont confirmé que les phrases générées par l’IA sont inadaptées à Wikipédia dès lors qu’elles ne peuvent pas être vérifiées factuellement
  • Grâce aux interventions précoces fondées sur Pangram, le taux d’usage de l’IA a été ramené de 25 % attendus à 5 %

Usages positifs possibles de l’IA

  • L’IA peut être utile au stade de la recherche pour identifier des lacunes dans les articles, explorer des sources et proposer des pistes d’accès à l’information
    • Dans 7 cours, sur 102 signalements d’usage, 87 % ont répondu que l’outil leur avait été utile
    • L’outil le plus utilisé était ChatGPT, suivi de Grammarly
  • Les étudiants ont utilisé l’IA pour corriger des phrases, suggérer des catégories et évaluer des brouillons
    • Toutefois, aucun cas de rédaction du corps de texte par IA n’a été observé
  • L’organisation souligne que l’IA n’est utile que si ses résultats sont examinés de manière critique, et que le jugement humain reste indispensable

Conclusion de Wiki Education et plans à venir

  • Au niveau actuel, l’IA générative produit des textes impossibles à vérifier, ce qui la rend inadaptée à la rédaction du contenu principal de Wikipédia
    • Le temps nécessaire pour vérifier des phrases générées par IA dépasse celui d’une rédaction directe
  • En revanche, elle peut servir d’outil d’appui pour la recherche documentaire et l’exploration d’idées
  • Le système de détection Pangram sera maintenu et amélioré en 2026
  • Wiki Education a constaté un manque de culture IA chez les participants et ajoutera des modules de formation sur les grands modèles de langage (LLM)
  • En coopération avec Princeton et d’autres partenaires, l’organisation mène une étude sur l’évolution des contributions étudiantes avant et après l’adoption de l’IA
    • Il a été confirmé que Pangram identifie avec exactitude comme humaines 100 % des modifications effectuées entre 2015 et 2022

Ce que cela implique pour l’ensemble de Wikipédia

  • 10 % des adultes dans le monde utilisent ChatGPT, et une part importante s’en sert pour rédiger du texte
    • Il existe donc un risque que des contributeurs débutants ajoutent du contenu généré par IA sans le vérifier
  • Des outils de détection automatique comme Pangram sont indispensables pour maintenir la qualité de Wikipédia
    • Aujourd’hui, seul un affichage manuel de bannière est possible, mais un système de détection automatisé est nécessaire
  • Il est proposé de renforcer, pour les nouveaux contributeurs, les avertissements sur l’usage de l’IA et la formation à une édition centrée sur les sources
    • Les logiciels d’aide à l’édition de la Wikimedia Foundation devraient eux aussi privilégier des modes de synthèse centrés sur l’humain
  • Pour que Wikipédia s’adapte aux évolutions technologiques tout en préservant sa fiabilité, il est important de développer des politiques et des outils adaptés à l’ère de l’IA

1 commentaires

 
GN⁺ 2026-02-02
Avis sur Hacker News
  • Wikipédia souffre depuis longtemps d’un problème généralisé d’échec de vérification des sources
    Il est difficile de trouver des preuves montrant que la fréquence a récemment augmenté
    La plupart des auteurs semblent écrire ce qu’ils savent, puis ajouter après coup un minimum de citations plausibles
    J’ai l’impression que la fiabilité varie selon le niveau d’expertise de la page et le caractère plus ou moins de niche du sujet

    • Un exemple de ce type est apparu en direct dans un récent épisode du podcast Changelog
      Les animateurs ont découvert qu’ils étaient présentés à tort comme « issus de GitHub », et l’invité a corrigé la citation Wikipédia pendant l’enregistrement
    • J’ai rencontré deux problèmes. Le premier, ce sont les fausses citations ; le second, ce sont les citations authentiques mais provenant de personnes peu fiables
      Quand on signale ce genre de problème, certains éditeurs affirment que « Wikipédia est fiable »
      Tant que cette perception ne changera pas, il sera difficile d’améliorer la situation
    • Les LLM peuvent ajouter des conclusions sans fondement à une fréquence bien plus élevée que les humains
    • En réalité, ce type de vérification des citations pourrait aussi servir à une détection automatique par l’IA, avec signalement pour examen humain
    • De nombreux articles ont très peu de citations, ou des citations erronées qui déforment la conclusion
      Par exemple, comme dans le cas d’une mauvaise interprétation du comportement des molécules d’eau
  • L’article insiste à trois reprises sur le fait de ne pas faire de copier-coller des sorties de l’IA générative
    J’ai vécu quelque chose de similaire. Au début, c’est étonnamment convaincant, mais on se rend vite compte qu’il y a beaucoup d’illusion et de bruit
    Cela reste néanmoins assez utile pour trouver des idées ou faire du brainstorming

  • J’ai choisi ce titre pour mettre en avant l’idée centrale de l’article
    La phrase « plus des deux tiers des articles signalés ont échoué à la vérification » m’a particulièrement marqué

    • Dans les articles liés à la politique, ce problème est courant depuis longtemps
      Quand on vérifie directement les citations, on trouve beaucoup de sources bancales
      L’IA peut aggraver le problème, mais les modifications malveillantes faites par des humains restent bien présentes
    • Le titre initialement soumis était « la plupart des articles signalés ont échoué à la vérification »
      Je trouve que cette formulation reflète bien l’essentiel
    • Les humains écrivent eux aussi des choses sans fondement, mais les LLM sont bien plus rapides en vitesse et en volume
      J’aimerais voir des données comparatives sur le taux d’erreur des citations avant l’ère de l’IA
  • Cet article ne traite pas de l’ensemble de Wikipédia, mais uniquement des modifications via le programme Wiki Edu
    Autrement dit, il s’agit d’articles rédigés par des étudiants dans le cadre de travaux universitaires

    • Si l’on oblige des étudiants à contribuer à Wikipédia, il est normal d’obtenir des résultats de faible qualité produits sans enthousiasme
      Au fond, le problème tient peut-être moins à Wikipédia qu’aux habitudes d’usage de l’IA dans les universités
    • Cela ressemble aussi à l’habitude qu’ont les étudiants de coller des citations qui ont l’air crédibles lorsqu’ils rédigent un mémoire
      Il est même triste de voir que certains doctorants écrivent ainsi
    • Parmi les articles modifiés dans Wiki Edu, certains ressemblaient à des devoirs d’écriture créative
      En lisant les sources, on voyait souvent des cas de contresens ou de résumés erronés
      Les LLM sont des outils parfaitement adaptés à ce type de « rédaction pour la note » chez les étudiants
  • Au-delà du problème de Wikipédia, le vrai sujet plus grave est que des millions de personnes dans le monde génèrent du texte avec des LLM, dont une partie est ensuite consommée comme si c’était factuel
    Les LLM n’ont aucune obligation de vérité et ne visent que la cohérence grammaticale

    • En réalité, les LLM ne visent même pas vraiment la cohérence grammaticale, mais plutôt un style largement admis par le public
      Il arrive que cela tombe juste par hasard, mais cela reste toujours instable
  • Même en ne regardant qu’une partie des articles, il est possible que la part de contenu écrit par des bots ait été sous-détectée par rapport à la réalité
    Autrement dit, il est possible que seuls les articles ayant échoué à la vérification aient été détectés

    • Le modèle de classification Pangram est un réseau neuronal de classification de texte entraîné à comparer des textes écrits par des humains avec ceux produits par plusieurs LLM
      Davantage de détails sont disponibles dans le PDF de l’article scientifique
  • Du point de vue des fournisseurs de LLM, cela ressemble à une tragédie des ressources communes contaminées
    Wikipédia représente une part importante des données d’entraînement, donc on peut se demander pourquoi ils la polluent eux-mêmes
    Il serait intéressant de voir apparaître une politique interdisant l’usage de l’IA sur Wikipédia

    • Le problème ne vient pas des fournisseurs d’IA, mais des utilisateurs
      La même chose se produit aussi sur GitHub
    • Mais ces erreurs de citation existaient déjà avant les LLM
      Pas seulement sur Wikipédia : les citations dont la source ne correspond pas à l’affirmation sont fréquentes ailleurs aussi
    • En fin de compte, ce sont bien les utilisateurs individuels qui provoquent ce type de problème
  • La fonctionnalité vraiment utile serait sans doute un chatbot à qui demander les règles d’édition
    Aujourd’hui, même les éditeurs expérimentés interprètent souvent les règles de manière arbitraire sur les pages de discussion
    Cette culture du « on annule d’abord, on justifie ensuite » constitue une grande barrière pour les débutants
    Sur ce point, un bot pourrait immédiatement objecter

  • Un autre problème, ce sont les wikis fondés sur l’IA comme Grokipedia
    En apparence, c’est plus élégant et plus adapté au mobile que Wikipédia, mais cela contient des informations volontairement déformées
    Il est possible que certaines grandes entreprises ou forces politiques cherchent à affaiblir une source d’information démocratique
    Il faut veiller à ce que Wikipédia ne devienne pas la cible de ce type d’attaque

  • Il est vrai que le spam IA fait baisser la qualité, mais au fond c’est surtout un problème de contrôle qualité de Wikipédia
    Le processus de relecture est lent, et rien ne garantit que les nouvelles informations soient correctes
    Même si le spam IA disparaissait, cela n’aurait pas beaucoup d’effet sans amélioration du contrôle qualité
    Wikipédia doit repenser son système de contrôle qualité pour expliquer clairement les choses à un niveau adapté au lecteur moyen