2 points par GN⁺ 2026-02-15 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • De grands médias bloquent ou restreignent l’accès à Internet Archive afin d’empêcher la collecte de données pour l’entraînement de l’IA
  • The Guardian a retiré ses pages d’articles de l’API d’Internet Archive et de la Wayback Machine, en ne laissant que certaines pages d’accueil et pages thématiques
  • The New York Times a ajouté archive.org_bot à son robots.txt à partir de la fin 2025, procédant ainsi à un blocage total du crawling
  • Gannett (USA Today Co.), ainsi que 241 sites d’actualités, bloquent au moins un bot d’Internet Archive, et beaucoup bloquent aussi Common Crawl, OpenAI et Google AI
  • Ces mesures constituent une réponse à l’utilisation non autorisée des données par les entreprises d’IA, tout en mettant en lumière la question de l’équilibre entre la préservation des archives numériques et l’accessibilité de l’information

Restriction de l’accès à Internet Archive par les principaux médias

  • The Guardian a restreint l’accès par crainte que des entreprises d’IA puissent collecter ses contenus via Internet Archive
    • Ses pages d’articles ont été exclues de l’API et de l’interface des URL d’articles de la Wayback Machine
    • Les pages d’accueil locales et les pages thématiques restent toutefois accessibles via la Wayback Machine
    • Robert Hahn a indiqué que « les entreprises d’IA préfèrent les bases de données structurées, et l’API d’Internet Archive peut devenir ce point d’accès »
  • The Guardian a précisé qu’il n’avait pas mis en place de blocage complet, et qu’il respectait la mission de démocratisation de l’accès à l’information portée par Internet Archive
    • Il réévalue toutefois sa position dans le cadre d’un examen futur de sa politique de gestion des bots

Réponse du The New York Times et du Financial Times

  • The New York Times a ajouté archive.org_bot à son robots.txt et imposé un « hard block » au crawler d’Internet Archive
    • Le journal explique que « la Wayback Machine fournit sans limitation les contenus du Times à des tiers, y compris des entreprises d’IA »
  • Le Financial Times a bloqué tous les bots concernés, dont OpenAI, Anthropic, Perplexity et Internet Archive, afin de protéger ses contenus payants
    • La plupart des articles du FT étant payants, seules les publications en accès libre restent visibles dans la Wayback Machine

Conflit entre Reddit et Internet Archive

  • Reddit a bloqué l’accès à Internet Archive en août 2025
    • Motif : des entreprises d’IA avaient utilisé la Wayback Machine pour scraper des données de Reddit
    • Reddit a expliqué qu’il s’agissait d’une mesure restrictive visant à empêcher les activités d’entreprises d’IA violant les règles de la plateforme
  • Reddit avait déjà conclu avec Google un accord de licence de données pour l’entraînement de l’IA

Position et réponse d’Internet Archive

  • Son fondateur Brewster Kahle a averti que « lorsque des éditeurs limitent des bibliothèques comme Internet Archive, l’accès du public aux archives historiques diminue »
  • Sur Mastodon, Kahle a indiqué que « certaines collections ne permettent pas le téléchargement massif » et qu’Internet Archive utilise la limitation de débit, le filtrage et les services de sécurité Cloudflare
  • En mai 2023, une entreprise d’IA avait temporairement perturbé Internet Archive en surchargeant ses serveurs avec des requêtes massives
    • Cette entreprise a ensuite présenté ses excuses et effectué un don

Analyse des données : état des blocages sur les sites d’actualités dans le monde

  • Nieman Lab a analysé la base de données de 1 167 sites d’actualités de Ben Welsh afin d’examiner la situation des blocages liés à Internet Archive
    • 241 sites d’actualités bloquent au moins un bot d’Internet Archive
    • 87 % appartiennent à USA Today Co. (Gannett), qui a ajouté archive.org_bot et ia_archiver-web.archive.org à son robots.txt en 2025
    • Certains sites de Gannett affichent dans la Wayback Machine le message : « Cette URL a été exclue »
  • Gannett a déclaré avoir introduit « un nouveau protocole pour empêcher la collecte non autorisée de données » et a rapporté avoir bloqué 75 millions de bots d’IA au cours du seul mois de septembre 2025, dont 70 millions provenant d’OpenAI
  • Au sein du groupe Le Monde, Le Monde et Le Huffington Post, entre autres, font partie de 3 sites qui bloquent les trois crawlers d’Internet Archive

Extension du blocage des crawlers liés à l’IA

  • Au-delà d’Internet Archive, les principaux crawlers d’IA tels que Common Crawl, OpenAI et Google AI sont eux aussi de plus en plus bloqués
    • Sur les 241 sites, 240 bloquent Common Crawl, et 231 bloquent les bots d’OpenAI et de Google AI
  • Common Crawl est considéré comme étroitement lié au développement commercial des LLM

La question de l’équilibre entre préservation du Web et accès à l’information

  • Internet Archive constitue le projet de préservation du Web le plus complet aux États-Unis, alors que de nombreuses organisations de presse ne disposent pas de capacités d’archivage en interne
  • En décembre 2025, Poynter et Internet Archive ont annoncé conjointement un programme de formation pour la préservation de la presse locale
  • Hahn a déclaré qu’« Internet Archive fonctionne de bonne foi, mais de bonnes intentions peuvent produire des effets pervers lorsqu’elles sont détournées »

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.