6 points par GN⁺ 2026-03-22 | 1 commentaires | Partager sur WhatsApp
  • Internet Archive, qui préserve le Web et les journaux depuis le milieu des années 1990, conserve plus de 1 000 milliards de pages Web via la Wayback Machine
  • Récemment, de grands médias comme The New York Times et The Guardian ont commencé à bloquer le crawl de l’archive en raison d’inquiétudes liées au scraping par l’IA
  • Cette mesure ne constitue pas seulement une limitation technique : elle provoque une rupture dans les archives historiques du Web, avec le risque de faire disparaître le seul enregistrement permettant de vérifier les changements apportés aux articles avant et après leur modification ou leur suppression
  • Indépendamment des litiges juridiques sur l’entraînement de l’IA, il est souligné que bloquer une institution de conservation à but non lucratif nuit à l’intérêt public
  • La recherche et l’archivage du Web sont déjà des domaines dont la légalité au titre du fair use est établie ; les bloquer ferait perdre aux chercheurs de demain l’histoire du Web

Bloquer Internet Archive n’arrêtera pas l’IA, mais effacera l’historique du Web

  • Internet Archive est la plus grande bibliothèque numérique au monde. Elle préserve le Web et les journaux depuis le milieu des années 1990 et stocke plus de 1 000 milliards de pages Web via la Wayback Machine
  • Ces derniers mois, The New York Times a commencé à bloquer le crawl de l’archive en invoquant des craintes liées au scraping de contenus par l’IA, et d’autres médias comme The Guardian semblent suivre le même chemin
  • Ce blocage n’est pas une simple restriction technique : il entraîne une rupture du record historique
    • Internet Archive constitue souvent le seul enregistrement permettant de vérifier les changements d’un article avant et après sa modification ou sa suppression
    • Si les médias bloquent l’accès, des décennies d’archives du Web risquent de disparaître
  • Alors que des litiges juridiques sur l’entraînement de l’IA sont en cours, il est indiqué que bloquer une institution de conservation à but non lucratif est une mauvaise réponse
    • Internet Archive ne développe pas de systèmes d’IA commerciaux et remplit une mission d’intérêt public de préservation historique
    • En cherchant à contrôler l’accès de l’IA, on risque aussi de porter atteinte à la fonction de conservation des bibliothèques

Légalité de l’archivage et de la recherche

  • Le fait de rendre un contenu consultable relève du fair use et est reconnu juridiquement depuis longtemps
    • Les tribunaux ont estimé qu’il était inévitable de reproduire les œuvres originales pour construire des index de recherche
    • Dans le cas où Google a copié des livres entiers pour créer une base de données de recherche, cela a également été reconnu comme ayant une transformative purpose
  • Internet Archive fonctionne lui aussi selon ce même principe
    • Comme une bibliothèque physique conserve les journaux, l’archive préserve l’historique du Web
    • Chercheurs et journalistes l’utilisent chaque jour ; Wikipédia à lui seul relie 2,6 millions d’articles d’actualité dans 249 langues à l’archive
    • D’innombrables blogueurs, chercheurs et journalistes s’y fient comme à une source stable et fiable
  • Les principes juridiques qui protègent les moteurs de recherche devraient aussi s’appliquer aux archives et aux bibliothèques

    • Même si les tribunaux devaient limiter l’entraînement de l’IA, la légalité de la recherche et de l’archivage du Web est déjà établie

Crise de la préservation du record historique

  • Internet Archive maintient l’historique du Web depuis environ 30 ans
  • Si les grands médias commencent à le bloquer, il est très probable que les chercheurs de demain perdent une masse considérable d’archives
  • Les débats juridiques liés à l’entraînement de l’IA doivent être tranchés devant les tribunaux, mais il est averti que sacrifier les archives publiques serait une erreur grave et irréversible

1 commentaires

 
GN⁺ 2026-03-22
Avis sur Hacker News
  • En tant qu’administrateur de site, je suis en train de lutter contre des crawlers IA agressifs
    Je m’inquiète que mes règles de blocage aient peut-être aussi bloqué Internet Archive
    Facebook ignore robots.txt et répartit ses requêtes sur plusieurs IP pour contourner le crawl delay
    J’ai donc mis en place des règles spécifiques à Facebook dans nginx
    Jusqu’à présent, le blocage par hash JA3 a été le plus efficace
    Mais j’aimerais qu’il existe un wrapper pour intégrer hugin-net à nginx afin de faire de l’empreinte TCP
    Comme je ne connais pas Rust, j’hésite même à demander à un LLM de le faire
    Cela dit, cette méthode a un problème de race condition : lors de la première connexion, il n’y a pas de hash JA4, et comme les crawlers IA n’envoient qu’une seule requête par IP, il n’y a aucune occasion de bloquer la deuxième requête

    • Internet Archive non plus ne respecte pas robots.txt
      Ils ont indiqué dans un billet officiel que « l’avenir de l’archivage du web dépendra moins de robots.txt »
      Une autre organisation, Archiveteam, ignorerait aussi robots.txt
      Ces derniers temps, les grandes organisations d’archivage semblent à peine tenir compte du point de vue des administrateurs de sites
    • Les techniques d’évasion comme la randomisation ou le camouflage de JA3 contournent facilement la détection
    • Je me demande s’il serait possible de mettre en place un mécanisme de contournement du blocage des bots qui ne laisserait passer que des requêtes signées avec une clé de liste blanche
      Cela permettrait peut-être d’autoriser uniquement le crawler d’Internet Archive
  • Je me demande ce qu’en pensent ceux qui ont déjà admis qu’on ne peut plus bloquer complètement les scrapers IA
    Le jour où il n’y aura plus de distinction entre un navigateur humain et un agent LLM n’est plus très loin
    Ils pourront lancer de vraies sessions GUI, parcourir les pages avec un navigateur et reconstituer le contenu à partir de snapshots pris au niveau du système d’exploitation
    Au final, l’idée même d’empêcher l’accès sur le web public risque de devenir obsolète
    Dans ce cas, comment réduire la charge qui pèse sur chaque hôte ?
    Verra-t-on apparaître une institution centrale d’archivage digne de confiance, ou bien des mécanismes pour punir les « mauvais comportements » des LLM ?

    • On devrait déjà avoir appris que le droit d’Internet n’a presque aucune force d’exécution réelle
    • On peut fournir des hashes de contenu et faire récupérer les données réelles via IPFS ou BitTorrent, ce qui réduirait la charge sur les sites
      Si les navigateurs le prenaient en charge, on pourrait obtenir l’efficacité d’un CDN sans centralisation
    • Si on ne publie tout simplement pas sur le web public, on n’a plus à s’inquiéter du scraping
      Il est peut-être plus efficace qu’un CDN vende directement les données
    • Aujourd’hui, des milliers d’entreprises d’IA aspirent l’ensemble du web, mais si la bulle IA éclate, il n’en restera au final que quelques-unes
      À ce moment-là, la demande de scraping continu diminuera
    • Le vrai problème, c’est la charge de trafic et le coût de la bande passante
      On dirait que les notions élémentaires d’ingénierie et de comptabilité ont été oubliées
  • Les médias surestiment l’impact de leur contenu sur les progrès de l’IA
    Même sans eux, la qualité des LLM n’aurait probablement pas été très différente

    • Il y a des limites à ce qu’on peut faire avec seulement Wikipedia, Reddit et des articles scientifiques
      À la fin, on a besoin de textes variés, comme les articles de presse
    • Plus le web est envahi par du contenu généré par l’IA, plus la valeur des textes écrits par des humains augmente
      Il est donc logique de chercher à empêcher les entreprises d’IA de les utiliser sans consentement
  • En ce moment, on brûle la bibliothèque pour punir l’incendiaire
    L’incendiaire est déjà parti

    • Mais en réalité, 90 % des visiteurs de la bibliothèque sont peut-être des incendiaires
  • C’est pour cela que archive.is a été créé
    Au lieu d’essayer de retrouver son fondateur pour le punir, ne vaudrait-il pas mieux le soutenir comme projet utile ?

    • D’accord. Si archive.is disparaît, archive.org se retrouvera en monopole
      archive.org accepte les demandes de suppression des propriétaires de sites, donc en rachetant un ancien domaine, on peut aussi effacer ses archives passées
    • Mais le fondateur d’archive.is a déjà lancé des attaques DDoS contre des journalistes
      Ce n’est pas quelqu’un à glorifier, puisqu’il a entraîné des utilisateurs dans ces attaques
  • En tant qu’ancien concepteur de systèmes anti-spam, je pense qu’à l’avenir il existera aussi pour l’accès aux sites une forme de certification comparable à une “licence de taxi”
    Par exemple, si Internet Archive envoie une requête HTTPS signée, le site peut vérifier qu’elle est authentique
    Cela va à l’encontre de l’esprit de l’Internet ouvert, mais il faut un moyen de distinguer les crawlers de confiance

    • J’exige des crawlers qui ne ressemblent pas à des humains qu’ils fournissent ce qui suit
      • un DNS inverse existant, avec sur ce domaine une page de politique de comportement
      • un enregistrement TXT lié à l’IP précisant qui accède, quand et à quelle fréquence
        Je prends des décisions automatiques de blocage sur la base de ces informations
        J’ai déjà documenté sur mon blog une politique de blocage par défaut des requêtes Amazon
  • Je pense que le New York Times est affreux. C’est justement pour cela qu’il doit absolument être préservé pour l’avenir

    • Tous les articles d’opinion de la presse ne sont au fond que de la propagande
      Chaque média ne publie que les textes conformes à son idéologie
    • Je me demande pourquoi tu le juges si mauvais. Je ne le lis pas
  • L’EFF est tiède vis-à-vis de l’IA
    Alors même que l’IA détruit Internet et l’emploi, elle ne prend pas de position ferme
    Quand on regarde la liste de ses soutiens, il y a beaucoup de sponsors d’entreprise, ce qui nuit à sa crédibilité en tant qu’organisation de défense des libertés
    Des organisations comme l’OSI ou l’EFF ont déjà été récupérées par les entreprises, au point d’en devenir nuisibles

  • S’il existait un programme distribué de crawlers IA sur IP résidentielles pour Internet Archive, je participerais volontiers
    Il faudrait cependant un mécanisme empêchant les manipulations

    • Internet Archive n’en a pas, mais il existe Archive Team Warrior
    • IA fait tout publiquement, et respecte même des demandes DMCA abusives
    • Il suffirait de terminer le TLS de leur côté. Au final, cela fonctionnerait comme un proxy résidentiel
  • Si quelqu’un vend à la fois de l’engrais et du diesel, il est raisonnable de supposer qu’il s’agit d’un fournisseur pour l’agriculture
    Mais s’il en vend par camion entier à des non-agriculteurs, il est tout aussi normal de trouver cela suspect