- De grands médias bloquent ou restreignent l’accès à Internet Archive afin d’empêcher la collecte de données pour l’entraînement de l’IA
- The Guardian a retiré ses pages d’articles de l’API d’Internet Archive et de la Wayback Machine, en ne laissant que certaines pages d’accueil et pages thématiques
- The New York Times a ajouté archive.org_bot à son robots.txt à partir de la fin 2025, procédant ainsi à un blocage total du crawling
- Gannett (USA Today Co.), ainsi que 241 sites d’actualités, bloquent au moins un bot d’Internet Archive, et beaucoup bloquent aussi Common Crawl, OpenAI et Google AI
- Ces mesures constituent une réponse à l’utilisation non autorisée des données par les entreprises d’IA, tout en mettant en lumière la question de l’équilibre entre la préservation des archives numériques et l’accessibilité de l’information
Restriction de l’accès à Internet Archive par les principaux médias
- The Guardian a restreint l’accès par crainte que des entreprises d’IA puissent collecter ses contenus via Internet Archive
- Ses pages d’articles ont été exclues de l’API et de l’interface des URL d’articles de la Wayback Machine
- Les pages d’accueil locales et les pages thématiques restent toutefois accessibles via la Wayback Machine
- Robert Hahn a indiqué que « les entreprises d’IA préfèrent les bases de données structurées, et l’API d’Internet Archive peut devenir ce point d’accès »
- The Guardian a précisé qu’il n’avait pas mis en place de blocage complet, et qu’il respectait la mission de démocratisation de l’accès à l’information portée par Internet Archive
- Il réévalue toutefois sa position dans le cadre d’un examen futur de sa politique de gestion des bots
Réponse du The New York Times et du Financial Times
- The New York Times a ajouté archive.org_bot à son robots.txt et imposé un « hard block » au crawler d’Internet Archive
- Le journal explique que « la Wayback Machine fournit sans limitation les contenus du Times à des tiers, y compris des entreprises d’IA »
- Le Financial Times a bloqué tous les bots concernés, dont OpenAI, Anthropic, Perplexity et Internet Archive, afin de protéger ses contenus payants
- La plupart des articles du FT étant payants, seules les publications en accès libre restent visibles dans la Wayback Machine
Conflit entre Reddit et Internet Archive
- Reddit a bloqué l’accès à Internet Archive en août 2025
- Motif : des entreprises d’IA avaient utilisé la Wayback Machine pour scraper des données de Reddit
- Reddit a expliqué qu’il s’agissait d’une mesure restrictive visant à empêcher les activités d’entreprises d’IA violant les règles de la plateforme
- Reddit avait déjà conclu avec Google un accord de licence de données pour l’entraînement de l’IA
Position et réponse d’Internet Archive
- Son fondateur Brewster Kahle a averti que « lorsque des éditeurs limitent des bibliothèques comme Internet Archive, l’accès du public aux archives historiques diminue »
- Sur Mastodon, Kahle a indiqué que « certaines collections ne permettent pas le téléchargement massif » et qu’Internet Archive utilise la limitation de débit, le filtrage et les services de sécurité Cloudflare
- En mai 2023, une entreprise d’IA avait temporairement perturbé Internet Archive en surchargeant ses serveurs avec des requêtes massives
- Cette entreprise a ensuite présenté ses excuses et effectué un don
Analyse des données : état des blocages sur les sites d’actualités dans le monde
- Nieman Lab a analysé la base de données de 1 167 sites d’actualités de Ben Welsh afin d’examiner la situation des blocages liés à Internet Archive
- 241 sites d’actualités bloquent au moins un bot d’Internet Archive
- 87 % appartiennent à USA Today Co. (Gannett), qui a ajouté archive.org_bot et ia_archiver-web.archive.org à son robots.txt en 2025
- Certains sites de Gannett affichent dans la Wayback Machine le message : « Cette URL a été exclue »
- Gannett a déclaré avoir introduit « un nouveau protocole pour empêcher la collecte non autorisée de données » et a rapporté avoir bloqué 75 millions de bots d’IA au cours du seul mois de septembre 2025, dont 70 millions provenant d’OpenAI
- Au sein du groupe Le Monde, Le Monde et Le Huffington Post, entre autres, font partie de 3 sites qui bloquent les trois crawlers d’Internet Archive
Extension du blocage des crawlers liés à l’IA
- Au-delà d’Internet Archive, les principaux crawlers d’IA tels que Common Crawl, OpenAI et Google AI sont eux aussi de plus en plus bloqués
- Sur les 241 sites, 240 bloquent Common Crawl, et 231 bloquent les bots d’OpenAI et de Google AI
- Common Crawl est considéré comme étroitement lié au développement commercial des LLM
La question de l’équilibre entre préservation du Web et accès à l’information
- Internet Archive constitue le projet de préservation du Web le plus complet aux États-Unis, alors que de nombreuses organisations de presse ne disposent pas de capacités d’archivage en interne
- En décembre 2025, Poynter et Internet Archive ont annoncé conjointement un programme de formation pour la préservation de la presse locale
- Hahn a déclaré qu’« Internet Archive fonctionne de bonne foi, mais de bonnes intentions peuvent produire des effets pervers lorsqu’elles sont détournées »
1 commentaires
Avis sur Hacker News
Que le scraping par l’IA soit autorisé ou non m’importe peu, mais le contenu doit impérativement pouvoir être archivé indépendamment par des tiers
Des réglementations comme SOC 2 ou HIPAA exigent une piste d’audit (audit trail) et la conservation des preuves
Or, si des documents de sécurité ou des rapports de réponse à incident disparaissent du web, la chaîne de preuves d’audit est rompue, et j’ai vu des entreprises échouer à des certifications pour cette raison
Au final, rendre le web impossible à préserver devient non seulement une perte culturelle, mais aussi un risque opérationnel
La page AWS Compliance Reports en est un bon exemple
Même de simples tâches de nettoyage de logs donnaient lieu à des débats sur leur importance
Quelques gros sinistres, et ça deviendra probablement réalité
Il y a récemment beaucoup de comptes de ce genre sur HN, et c’est inquiétant
Au final, ce sont les utilisateurs ordinaires, qui n’ont pas les ressources pour scraper tout le web, qui en subiront les conséquences
Je rêve depuis longtemps d’un web où le contenu serait réhébergé à partir de hachages — IPFS a essayé de faire ça, mais malheureusement sans succès
Mais vu qu’il existe Common Crawl, je me demande pourquoi les entreprises d’IA continuent à crawler directement
Sans archivage séparé, même les articles de presse sont condamnés à disparaître un jour
Par exemple, si un éditeur Wikipédia ne peut pas sécuriser durablement un lien vers un article du Times, il finira par le remplacer par un article du WaPo
C’est exactement une tragédie des biens communs
C’est un outil qui aide les équipes à préserver durablement des URL sans dépendre de services externes
Il enregistre en plusieurs formats, notamment snapshot HTML, capture d’écran, PDF et mode lecteur
Il existe en version cloud hébergée (linkwarden.app) et en version auto-hébergée (dépôt GitHub)
Cela dit, côté UX, une fonction de marquage « lu/archivé » serait utile
Les erreurs de métadonnées se multiplient, et des moteurs de recherche scientifique comme Google Scholar sont eux aussi en train de se dégrader
Il semble que certains grands éditeurs scientifiques bloquent également les bots d’IA
Environ 20 % de l’ensemble des sites d’actualité bloquent les deux
Par exemple, cet article de realtor.com ne peut pas être archivé par l’IA à cause d’une erreur 429
Au final, on bloque les acteurs vertueux et on ne laisse que les mauvais
Reste à savoir comment filtrer les pages contenant des données personnelles
Depuis que les entreprises d’IA ont commencé à utiliser des proxies, j’ai dû bloquer tous les pays non ciblés
Internet est devenu un écosystème malade
Si la condition était de ne jamais les fournir pour l’entraînement de modèles d’entreprise, ce serait peut-être acceptable
Le problème, c’est que les LLM absorbent toute la chaîne de valeur sans rien restituer en retour
Il n’enregistrerait que les domaines autorisés par l’utilisateur et, s’il était open source, cela réduirait aussi les inquiétudes liées à la vie privée
Ce ne serait pas du crawling automatisé, mais l’envoi d’une partie des vues de vrais utilisateurs
Mais un site peut y glisser des informations identifiantes sur l’utilisateur, avec un risque de fuite de données personnelles
Il est donc compliqué d’en assurer la fiabilité pour un usage comme archive historique