2 points par GN⁺ 2026-02-15 | 1 commentaires | Partager sur WhatsApp
  • De grands médias bloquent ou restreignent l’accès à Internet Archive afin d’empêcher la collecte de données pour l’entraînement de l’IA
  • The Guardian a retiré ses pages d’articles de l’API d’Internet Archive et de la Wayback Machine, en ne laissant que certaines pages d’accueil et pages thématiques
  • The New York Times a ajouté archive.org_bot à son robots.txt à partir de la fin 2025, procédant ainsi à un blocage total du crawling
  • Gannett (USA Today Co.), ainsi que 241 sites d’actualités, bloquent au moins un bot d’Internet Archive, et beaucoup bloquent aussi Common Crawl, OpenAI et Google AI
  • Ces mesures constituent une réponse à l’utilisation non autorisée des données par les entreprises d’IA, tout en mettant en lumière la question de l’équilibre entre la préservation des archives numériques et l’accessibilité de l’information

Restriction de l’accès à Internet Archive par les principaux médias

  • The Guardian a restreint l’accès par crainte que des entreprises d’IA puissent collecter ses contenus via Internet Archive
    • Ses pages d’articles ont été exclues de l’API et de l’interface des URL d’articles de la Wayback Machine
    • Les pages d’accueil locales et les pages thématiques restent toutefois accessibles via la Wayback Machine
    • Robert Hahn a indiqué que « les entreprises d’IA préfèrent les bases de données structurées, et l’API d’Internet Archive peut devenir ce point d’accès »
  • The Guardian a précisé qu’il n’avait pas mis en place de blocage complet, et qu’il respectait la mission de démocratisation de l’accès à l’information portée par Internet Archive
    • Il réévalue toutefois sa position dans le cadre d’un examen futur de sa politique de gestion des bots

Réponse du The New York Times et du Financial Times

  • The New York Times a ajouté archive.org_bot à son robots.txt et imposé un « hard block » au crawler d’Internet Archive
    • Le journal explique que « la Wayback Machine fournit sans limitation les contenus du Times à des tiers, y compris des entreprises d’IA »
  • Le Financial Times a bloqué tous les bots concernés, dont OpenAI, Anthropic, Perplexity et Internet Archive, afin de protéger ses contenus payants
    • La plupart des articles du FT étant payants, seules les publications en accès libre restent visibles dans la Wayback Machine

Conflit entre Reddit et Internet Archive

  • Reddit a bloqué l’accès à Internet Archive en août 2025
    • Motif : des entreprises d’IA avaient utilisé la Wayback Machine pour scraper des données de Reddit
    • Reddit a expliqué qu’il s’agissait d’une mesure restrictive visant à empêcher les activités d’entreprises d’IA violant les règles de la plateforme
  • Reddit avait déjà conclu avec Google un accord de licence de données pour l’entraînement de l’IA

Position et réponse d’Internet Archive

  • Son fondateur Brewster Kahle a averti que « lorsque des éditeurs limitent des bibliothèques comme Internet Archive, l’accès du public aux archives historiques diminue »
  • Sur Mastodon, Kahle a indiqué que « certaines collections ne permettent pas le téléchargement massif » et qu’Internet Archive utilise la limitation de débit, le filtrage et les services de sécurité Cloudflare
  • En mai 2023, une entreprise d’IA avait temporairement perturbé Internet Archive en surchargeant ses serveurs avec des requêtes massives
    • Cette entreprise a ensuite présenté ses excuses et effectué un don

Analyse des données : état des blocages sur les sites d’actualités dans le monde

  • Nieman Lab a analysé la base de données de 1 167 sites d’actualités de Ben Welsh afin d’examiner la situation des blocages liés à Internet Archive
    • 241 sites d’actualités bloquent au moins un bot d’Internet Archive
    • 87 % appartiennent à USA Today Co. (Gannett), qui a ajouté archive.org_bot et ia_archiver-web.archive.org à son robots.txt en 2025
    • Certains sites de Gannett affichent dans la Wayback Machine le message : « Cette URL a été exclue »
  • Gannett a déclaré avoir introduit « un nouveau protocole pour empêcher la collecte non autorisée de données » et a rapporté avoir bloqué 75 millions de bots d’IA au cours du seul mois de septembre 2025, dont 70 millions provenant d’OpenAI
  • Au sein du groupe Le Monde, Le Monde et Le Huffington Post, entre autres, font partie de 3 sites qui bloquent les trois crawlers d’Internet Archive

Extension du blocage des crawlers liés à l’IA

  • Au-delà d’Internet Archive, les principaux crawlers d’IA tels que Common Crawl, OpenAI et Google AI sont eux aussi de plus en plus bloqués
    • Sur les 241 sites, 240 bloquent Common Crawl, et 231 bloquent les bots d’OpenAI et de Google AI
  • Common Crawl est considéré comme étroitement lié au développement commercial des LLM

La question de l’équilibre entre préservation du Web et accès à l’information

  • Internet Archive constitue le projet de préservation du Web le plus complet aux États-Unis, alors que de nombreuses organisations de presse ne disposent pas de capacités d’archivage en interne
  • En décembre 2025, Poynter et Internet Archive ont annoncé conjointement un programme de formation pour la préservation de la presse locale
  • Hahn a déclaré qu’« Internet Archive fonctionne de bonne foi, mais de bonnes intentions peuvent produire des effets pervers lorsqu’elles sont détournées »

1 commentaires

 
GN⁺ 2026-02-15
Avis sur Hacker News
  • Si un média refuse un archivage indépendant, alors je pense qu’on ne peut pas faire confiance à ses actualités
    Que le scraping par l’IA soit autorisé ou non m’importe peu, mais le contenu doit impérativement pouvoir être archivé indépendamment par des tiers
    • Je pense pareil. Un archivage indépendant est indispensable
    • J’ai l’impression qu’il n’existe aucune source d’information vraiment fiable. La plupart poussent un agenda délibéré, et maintenant ils ne s’en cachent même plus
  • Il y a aussi un aspect conformité réglementaire dans ce problème
    Des réglementations comme SOC 2 ou HIPAA exigent une piste d’audit (audit trail) et la conservation des preuves
    Or, si des documents de sécurité ou des rapports de réponse à incident disparaissent du web, la chaîne de preuves d’audit est rompue, et j’ai vu des entreprises échouer à des certifications pour cette raison
    Au final, rendre le web impossible à préserver devient non seulement une perte culturelle, mais aussi un risque opérationnel
    • J’ai cherché des exemples, et le tout premier résultat renvoyait déjà une 404
      La page AWS Compliance Reports en est un bon exemple
    • J’ai passé plusieurs audits SOC dans de grands groupes financiers, et il y avait de gros conflits entre départements pour définir ce qui était vraiment critique
      Même de simples tâches de nettoyage de logs donnaient lieu à des débats sur leur importance
    • Au final, j’ai l’impression que les assureurs vont exiger des copies papier des documents pour éviter ce genre de problème
      Quelques gros sinistres, et ça deviendra probablement réalité
    • Des entreprises comme Page Vault existent déjà pour tenter de résoudre ce problème
    • Mais certains soupçonnent aussi que l’auteur de ce commentaire ressemble à un compte d’outil IA
      Il y a récemment beaucoup de comptes de ce genre sur HN, et c’est inquiétant
  • Au lieu de scraper Internet Archive une seule fois, les entreprises d’IA vont probablement utiliser des proxies résidentiels pour scraper chaque site de manière répétée
    Au final, ce sont les utilisateurs ordinaires, qui n’ont pas les ressources pour scraper tout le web, qui en subiront les conséquences
    Je rêve depuis longtemps d’un web où le contenu serait réhébergé à partir de hachages — IPFS a essayé de faire ça, mais malheureusement sans succès
    • En pratique, les entreprises d’IA rescrapent sans cesse les mêmes pages. Même mon site perso reçoit encore des requêtes alors qu’il ne change pas
    • IPFS était justement un projet visant ce type d’architecture
    • Le trafic proxy venu du Vietnam et de Corée du Sud est en train de détruire mon serveur. 3 500 requêtes par seconde, c’est intenable
    • Les entreprises d’IA utilisent déjà des réseaux de proxies via des appareils ou applications infectés
    • Je pense que ces proxies ne dureront pas longtemps. La pression commerciale finira par les faire reculer
      Mais vu qu’il existe Common Crawl, je me demande pourquoi les entreprises d’IA continuent à crawler directement
  • Les inquiétudes de Brewster au sujet de la préservation des archives historiques sont bien réelles
    Sans archivage séparé, même les articles de presse sont condamnés à disparaître un jour
    Par exemple, si un éditeur Wikipédia ne peut pas sécuriser durablement un lien vers un article du Times, il finira par le remplacer par un article du WaPo
    C’est exactement une tragédie des biens communs
  • Je maintiens un projet open source appelé Linkwarden
    C’est un outil qui aide les équipes à préserver durablement des URL sans dépendre de services externes
    Il enregistre en plusieurs formats, notamment snapshot HTML, capture d’écran, PDF et mode lecteur
    Il existe en version cloud hébergée (linkwarden.app) et en version auto-hébergée (dépôt GitHub)
    • Linkwarden est excellent. Avec l’extension SingleFile, on peut même sauvegarder des pages bloquées pour les scrapers
      Cela dit, côté UX, une fonction de marquage « lu/archivé » serait utile
    • Je suis curieux de savoir comment fonctionne l’intégration avec archive.org. Est-ce qu’elle se contente d’envoyer l’URL, ou bien enregistre directement les données récupérées côté client ?
  • Ce problème touche aussi le domaine scientifique
    Les erreurs de métadonnées se multiplient, et des moteurs de recherche scientifique comme Google Scholar sont eux aussi en train de se dégrader
    Il semble que certains grands éditeurs scientifiques bloquent également les bots d’IA
    • En plus, la qualité de la recherche Google elle-même s’est effondrée. J’ai de plus en plus l’impression d’un rétrécissement du champ de l’information
    • Empêcher l’accès, au nom du blocage de l’IA, à des résultats scientifiques financés par des fonds publics constitue une atteinte à l’intérêt public
    • Malgré tout, PubMed et des opérateurs de recherche précis permettent encore de tenir
  • Des médias comme The Guardian et le NYT bloquent Internet Archive et Common Crawl
    Environ 20 % de l’ensemble des sites d’actualité bloquent les deux
    Par exemple, cet article de realtor.com ne peut pas être archivé par l’IA à cause d’une erreur 429
    • IA cesse l’archivage lorsqu’on le lui demande, mais les scrapers malveillants, eux, ne le font pas
      Au final, on bloque les acteurs vertueux et on ne laisse que les mauvais
    • Quelqu’un demande des preuves que The Guardian bloque vraiment IA. Après vérification directe, cela semblait fonctionner correctement
    • Je pense qu’une archive participative basée sur une extension de navigateur serait utile
      Reste à savoir comment filtrer les pages contenant des données personnelles
  • Ma première impression est que les entreprises de presse se servent de l’IA comme prétexte pour des questions de droit d’auteur
    • En tant qu’exploitant de site web, plus de 90 % de mon trafic est constitué de bots et de spam
      Depuis que les entreprises d’IA ont commencé à utiliser des proxies, j’ai dû bloquer tous les pays non ciblés
      Internet est devenu un écosystème malade
  • Je me demande si les médias seraient plus favorables à des archives privées à usage académique ou journalistique
    Si la condition était de ne jamais les fournir pour l’entraînement de modèles d’entreprise, ce serait peut-être acceptable
    • Ils fournissent déjà aux bibliothèques des archives sous licence payante. Il est possible d’en prévenir les abus
    • La plupart des médias ont des accords de syndication de contenu
      Le problème, c’est que les LLM absorbent toute la chaîne de valeur sans rien restituer en retour
    • En interne, ils ont probablement leurs propres archives, mais le vrai problème est celui de l’accès public
  • J’ai pensé à l’idée d’un plugin de navigateur participatif qui enverrait automatiquement à une archive les pages vues par les utilisateurs
    Il n’enregistrerait que les domaines autorisés par l’utilisateur et, s’il était open source, cela réduirait aussi les inquiétudes liées à la vie privée
    Ce ne serait pas du crawling automatisé, mais l’envoi d’une partie des vues de vrais utilisateurs
    • SingleFile fait déjà plutôt bien ce type d’archivage
      Mais un site peut y glisser des informations identifiantes sur l’utilisateur, avec un risque de fuite de données personnelles
    • Un autre problème est qu’il est difficile de garantir que les données envoyées par l’utilisateur n’ont pas été falsifiées
      Il est donc compliqué d’en assurer la fiabilité pour un usage comme archive historique