Bloquer Internet Archive n’arrêtera pas l’IA, mais effacera l’historique du Web

(eff.org)

6 points par GN⁺ 2026-03-22 | 1 commentaires | Partager sur WhatsApp

Internet Archive, qui préserve le Web et les journaux depuis le milieu des années 1990, conserve plus de 1 000 milliards de pages Web via la Wayback Machine
Récemment, de grands médias comme The New York Times et The Guardian ont commencé à bloquer le crawl de l’archive en raison d’inquiétudes liées au scraping par l’IA
Cette mesure ne constitue pas seulement une limitation technique : elle provoque une rupture dans les archives historiques du Web, avec le risque de faire disparaître le seul enregistrement permettant de vérifier les changements apportés aux articles avant et après leur modification ou leur suppression
Indépendamment des litiges juridiques sur l’entraînement de l’IA, il est souligné que bloquer une institution de conservation à but non lucratif nuit à l’intérêt public
La recherche et l’archivage du Web sont déjà des domaines dont la légalité au titre du fair use est établie ; les bloquer ferait perdre aux chercheurs de demain l’histoire du Web

Bloquer Internet Archive n’arrêtera pas l’IA, mais effacera l’historique du Web

Internet Archive est la plus grande bibliothèque numérique au monde. Elle préserve le Web et les journaux depuis le milieu des années 1990 et stocke plus de 1 000 milliards de pages Web via la Wayback Machine
Ces derniers mois, The New York Times a commencé à bloquer le crawl de l’archive en invoquant des craintes liées au scraping de contenus par l’IA, et d’autres médias comme The Guardian semblent suivre le même chemin
Ce blocage n’est pas une simple restriction technique : il entraîne une rupture du record historique
- Internet Archive constitue souvent le seul enregistrement permettant de vérifier les changements d’un article avant et après sa modification ou sa suppression
- Si les médias bloquent l’accès, des décennies d’archives du Web risquent de disparaître
Alors que des litiges juridiques sur l’entraînement de l’IA sont en cours, il est indiqué que bloquer une institution de conservation à but non lucratif est une mauvaise réponse
- Internet Archive ne développe pas de systèmes d’IA commerciaux et remplit une mission d’intérêt public de préservation historique
- En cherchant à contrôler l’accès de l’IA, on risque aussi de porter atteinte à la fonction de conservation des bibliothèques

Légalité de l’archivage et de la recherche

Le fait de rendre un contenu consultable relève du fair use et est reconnu juridiquement depuis longtemps
- Les tribunaux ont estimé qu’il était inévitable de reproduire les œuvres originales pour construire des index de recherche
- Dans le cas où Google a copié des livres entiers pour créer une base de données de recherche, cela a également été reconnu comme ayant une transformative purpose
Internet Archive fonctionne lui aussi selon ce même principe
- Comme une bibliothèque physique conserve les journaux, l’archive préserve l’historique du Web
- Chercheurs et journalistes l’utilisent chaque jour ; Wikipédia à lui seul relie 2,6 millions d’articles d’actualité dans 249 langues à l’archive
- D’innombrables blogueurs, chercheurs et journalistes s’y fient comme à une source stable et fiable
Les principes juridiques qui protègent les moteurs de recherche devraient aussi s’appliquer aux archives et aux bibliothèques
- Même si les tribunaux devaient limiter l’entraînement de l’IA, la légalité de la recherche et de l’archivage du Web est déjà établie

Crise de la préservation du record historique

Internet Archive maintient l’historique du Web depuis environ 30 ans
Si les grands médias commencent à le bloquer, il est très probable que les chercheurs de demain perdent une masse considérable d’archives
Les débats juridiques liés à l’entraînement de l’IA doivent être tranchés devant les tribunaux, mais il est averti que sacrifier les archives publiques serait une erreur grave et irréversible

1 commentaires

GN⁺ 2026-03-22

Avis sur Hacker News

En tant qu’administrateur de site, je suis en train de lutter contre des crawlers IA agressifs
Je m’inquiète que mes règles de blocage aient peut-être aussi bloqué Internet Archive
Facebook ignore robots.txt et répartit ses requêtes sur plusieurs IP pour contourner le crawl delay
J’ai donc mis en place des règles spécifiques à Facebook dans nginx
Jusqu’à présent, le blocage par hash JA3 a été le plus efficace
Mais j’aimerais qu’il existe un wrapper pour intégrer hugin-net à nginx afin de faire de l’empreinte TCP
Comme je ne connais pas Rust, j’hésite même à demander à un LLM de le faire
Cela dit, cette méthode a un problème de race condition : lors de la première connexion, il n’y a pas de hash JA4, et comme les crawlers IA n’envoient qu’une seule requête par IP, il n’y a aucune occasion de bloquer la deuxième requête
- Internet Archive non plus ne respecte pas robots.txt
  Ils ont indiqué dans un billet officiel que « l’avenir de l’archivage du web dépendra moins de robots.txt »
  Une autre organisation, Archiveteam, ignorerait aussi robots.txt
  Ces derniers temps, les grandes organisations d’archivage semblent à peine tenir compte du point de vue des administrateurs de sites
- Les techniques d’évasion comme la randomisation ou le camouflage de JA3 contournent facilement la détection
- Je me demande s’il serait possible de mettre en place un mécanisme de contournement du blocage des bots qui ne laisserait passer que des requêtes signées avec une clé de liste blanche
  Cela permettrait peut-être d’autoriser uniquement le crawler d’Internet Archive
Je me demande ce qu’en pensent ceux qui ont déjà admis qu’on ne peut plus bloquer complètement les scrapers IA
Le jour où il n’y aura plus de distinction entre un navigateur humain et un agent LLM n’est plus très loin
Ils pourront lancer de vraies sessions GUI, parcourir les pages avec un navigateur et reconstituer le contenu à partir de snapshots pris au niveau du système d’exploitation
Au final, l’idée même d’empêcher l’accès sur le web public risque de devenir obsolète
Dans ce cas, comment réduire la charge qui pèse sur chaque hôte ?
Verra-t-on apparaître une institution centrale d’archivage digne de confiance, ou bien des mécanismes pour punir les « mauvais comportements » des LLM ?
- On devrait déjà avoir appris que le droit d’Internet n’a presque aucune force d’exécution réelle
- On peut fournir des hashes de contenu et faire récupérer les données réelles via IPFS ou BitTorrent, ce qui réduirait la charge sur les sites
  Si les navigateurs le prenaient en charge, on pourrait obtenir l’efficacité d’un CDN sans centralisation
- Si on ne publie tout simplement pas sur le web public, on n’a plus à s’inquiéter du scraping
  Il est peut-être plus efficace qu’un CDN vende directement les données
- Aujourd’hui, des milliers d’entreprises d’IA aspirent l’ensemble du web, mais si la bulle IA éclate, il n’en restera au final que quelques-unes
  À ce moment-là, la demande de scraping continu diminuera
- Le vrai problème, c’est la charge de trafic et le coût de la bande passante
  On dirait que les notions élémentaires d’ingénierie et de comptabilité ont été oubliées
Les médias surestiment l’impact de leur contenu sur les progrès de l’IA
Même sans eux, la qualité des LLM n’aurait probablement pas été très différente
- Il y a des limites à ce qu’on peut faire avec seulement Wikipedia, Reddit et des articles scientifiques
  À la fin, on a besoin de textes variés, comme les articles de presse
- Plus le web est envahi par du contenu généré par l’IA, plus la valeur des textes écrits par des humains augmente
  Il est donc logique de chercher à empêcher les entreprises d’IA de les utiliser sans consentement
En ce moment, on brûle la bibliothèque pour punir l’incendiaire
L’incendiaire est déjà parti
- Mais en réalité, 90 % des visiteurs de la bibliothèque sont peut-être des incendiaires
C’est pour cela que archive.is a été créé
Au lieu d’essayer de retrouver son fondateur pour le punir, ne vaudrait-il pas mieux le soutenir comme projet utile ?
- D’accord. Si archive.is disparaît, archive.org se retrouvera en monopole
  archive.org accepte les demandes de suppression des propriétaires de sites, donc en rachetant un ancien domaine, on peut aussi effacer ses archives passées
- Mais le fondateur d’archive.is a déjà lancé des attaques DDoS contre des journalistes
  Ce n’est pas quelqu’un à glorifier, puisqu’il a entraîné des utilisateurs dans ces attaques
En tant qu’ancien concepteur de systèmes anti-spam, je pense qu’à l’avenir il existera aussi pour l’accès aux sites une forme de certification comparable à une “licence de taxi”
Par exemple, si Internet Archive envoie une requête HTTPS signée, le site peut vérifier qu’elle est authentique
Cela va à l’encontre de l’esprit de l’Internet ouvert, mais il faut un moyen de distinguer les crawlers de confiance
- J’exige des crawlers qui ne ressemblent pas à des humains qu’ils fournissent ce qui suit
  - un DNS inverse existant, avec sur ce domaine une page de politique de comportement
  - un enregistrement TXT lié à l’IP précisant qui accède, quand et à quelle fréquence
    Je prends des décisions automatiques de blocage sur la base de ces informations
    J’ai déjà documenté sur mon blog une politique de blocage par défaut des requêtes Amazon
Je pense que le New York Times est affreux. C’est justement pour cela qu’il doit absolument être préservé pour l’avenir
- Tous les articles d’opinion de la presse ne sont au fond que de la propagande
  Chaque média ne publie que les textes conformes à son idéologie
- Je me demande pourquoi tu le juges si mauvais. Je ne le lis pas
L’EFF est tiède vis-à-vis de l’IA
Alors même que l’IA détruit Internet et l’emploi, elle ne prend pas de position ferme
Quand on regarde la liste de ses soutiens, il y a beaucoup de sponsors d’entreprise, ce qui nuit à sa crédibilité en tant qu’organisation de défense des libertés
Des organisations comme l’OSI ou l’EFF ont déjà été récupérées par les entreprises, au point d’en devenir nuisibles
S’il existait un programme distribué de crawlers IA sur IP résidentielles pour Internet Archive, je participerais volontiers
Il faudrait cependant un mécanisme empêchant les manipulations
- Internet Archive n’en a pas, mais il existe Archive Team Warrior
- IA fait tout publiquement, et respecte même des demandes DMCA abusives
- Il suffirait de terminer le TLS de leur côté. Au final, cela fonctionnerait comme un proxy résidentiel
Si quelqu’un vend à la fois de l’engrais et du diesel, il est raisonnable de supposer qu’il s’agit d’un fournisseur pour l’agriculture
Mais s’il en vend par camion entier à des non-agriculteurs, il est tout aussi normal de trouver cela suspect

Bloquer Internet Archive n’arrêtera pas l’IA, mais effacera l’historique du Web

Bloquer Internet Archive n’arrêtera pas l’IA, mais effacera l’historique du Web

Légalité de l’archivage et de la recherche

Les principes juridiques qui protègent les moteurs de recherche devraient aussi s’appliquer aux archives et aux bibliothèques

Crise de la préservation du record historique

À lire aussi

1 commentaires

Avis sur Hacker News