- Internet Archive, qui préserve le Web et les journaux depuis le milieu des années 1990, conserve plus de 1 000 milliards de pages Web via la Wayback Machine
- Récemment, de grands médias comme The New York Times et The Guardian ont commencé à bloquer le crawl de l’archive en raison d’inquiétudes liées au scraping par l’IA
- Cette mesure ne constitue pas seulement une limitation technique : elle provoque une rupture dans les archives historiques du Web, avec le risque de faire disparaître le seul enregistrement permettant de vérifier les changements apportés aux articles avant et après leur modification ou leur suppression
- Indépendamment des litiges juridiques sur l’entraînement de l’IA, il est souligné que bloquer une institution de conservation à but non lucratif nuit à l’intérêt public
- La recherche et l’archivage du Web sont déjà des domaines dont la légalité au titre du fair use est établie ; les bloquer ferait perdre aux chercheurs de demain l’histoire du Web
Bloquer Internet Archive n’arrêtera pas l’IA, mais effacera l’historique du Web
- Internet Archive est la plus grande bibliothèque numérique au monde. Elle préserve le Web et les journaux depuis le milieu des années 1990 et stocke plus de 1 000 milliards de pages Web via la Wayback Machine
- Ces derniers mois, The New York Times a commencé à bloquer le crawl de l’archive en invoquant des craintes liées au scraping de contenus par l’IA, et d’autres médias comme The Guardian semblent suivre le même chemin
- Ce blocage n’est pas une simple restriction technique : il entraîne une rupture du record historique
- Internet Archive constitue souvent le seul enregistrement permettant de vérifier les changements d’un article avant et après sa modification ou sa suppression
- Si les médias bloquent l’accès, des décennies d’archives du Web risquent de disparaître
- Alors que des litiges juridiques sur l’entraînement de l’IA sont en cours, il est indiqué que bloquer une institution de conservation à but non lucratif est une mauvaise réponse
- Internet Archive ne développe pas de systèmes d’IA commerciaux et remplit une mission d’intérêt public de préservation historique
- En cherchant à contrôler l’accès de l’IA, on risque aussi de porter atteinte à la fonction de conservation des bibliothèques
Légalité de l’archivage et de la recherche
- Le fait de rendre un contenu consultable relève du fair use et est reconnu juridiquement depuis longtemps
- Les tribunaux ont estimé qu’il était inévitable de reproduire les œuvres originales pour construire des index de recherche
- Dans le cas où Google a copié des livres entiers pour créer une base de données de recherche, cela a également été reconnu comme ayant une transformative purpose
- Internet Archive fonctionne lui aussi selon ce même principe
- Comme une bibliothèque physique conserve les journaux, l’archive préserve l’historique du Web
- Chercheurs et journalistes l’utilisent chaque jour ; Wikipédia à lui seul relie 2,6 millions d’articles d’actualité dans 249 langues à l’archive
- D’innombrables blogueurs, chercheurs et journalistes s’y fient comme à une source stable et fiable
-
Les principes juridiques qui protègent les moteurs de recherche devraient aussi s’appliquer aux archives et aux bibliothèques
- Même si les tribunaux devaient limiter l’entraînement de l’IA, la légalité de la recherche et de l’archivage du Web est déjà établie
Crise de la préservation du record historique
- Internet Archive maintient l’historique du Web depuis environ 30 ans
- Si les grands médias commencent à le bloquer, il est très probable que les chercheurs de demain perdent une masse considérable d’archives
- Les débats juridiques liés à l’entraînement de l’IA doivent être tranchés devant les tribunaux, mais il est averti que sacrifier les archives publiques serait une erreur grave et irréversible
1 commentaires
Avis sur Hacker News
En tant qu’administrateur de site, je suis en train de lutter contre des crawlers IA agressifs
Je m’inquiète que mes règles de blocage aient peut-être aussi bloqué Internet Archive
Facebook ignore
robots.txtet répartit ses requêtes sur plusieurs IP pour contourner lecrawl delayJ’ai donc mis en place des règles spécifiques à Facebook dans nginx
Jusqu’à présent, le blocage par hash JA3 a été le plus efficace
Mais j’aimerais qu’il existe un wrapper pour intégrer hugin-net à nginx afin de faire de l’empreinte TCP
Comme je ne connais pas Rust, j’hésite même à demander à un LLM de le faire
Cela dit, cette méthode a un problème de race condition : lors de la première connexion, il n’y a pas de hash JA4, et comme les crawlers IA n’envoient qu’une seule requête par IP, il n’y a aucune occasion de bloquer la deuxième requête
robots.txtIls ont indiqué dans un billet officiel que « l’avenir de l’archivage du web dépendra moins de
robots.txt»Une autre organisation, Archiveteam, ignorerait aussi
robots.txtCes derniers temps, les grandes organisations d’archivage semblent à peine tenir compte du point de vue des administrateurs de sites
Cela permettrait peut-être d’autoriser uniquement le crawler d’Internet Archive
Je me demande ce qu’en pensent ceux qui ont déjà admis qu’on ne peut plus bloquer complètement les scrapers IA
Le jour où il n’y aura plus de distinction entre un navigateur humain et un agent LLM n’est plus très loin
Ils pourront lancer de vraies sessions GUI, parcourir les pages avec un navigateur et reconstituer le contenu à partir de snapshots pris au niveau du système d’exploitation
Au final, l’idée même d’empêcher l’accès sur le web public risque de devenir obsolète
Dans ce cas, comment réduire la charge qui pèse sur chaque hôte ?
Verra-t-on apparaître une institution centrale d’archivage digne de confiance, ou bien des mécanismes pour punir les « mauvais comportements » des LLM ?
Si les navigateurs le prenaient en charge, on pourrait obtenir l’efficacité d’un CDN sans centralisation
Il est peut-être plus efficace qu’un CDN vende directement les données
À ce moment-là, la demande de scraping continu diminuera
On dirait que les notions élémentaires d’ingénierie et de comptabilité ont été oubliées
Les médias surestiment l’impact de leur contenu sur les progrès de l’IA
Même sans eux, la qualité des LLM n’aurait probablement pas été très différente
À la fin, on a besoin de textes variés, comme les articles de presse
Il est donc logique de chercher à empêcher les entreprises d’IA de les utiliser sans consentement
En ce moment, on brûle la bibliothèque pour punir l’incendiaire
L’incendiaire est déjà parti
C’est pour cela que archive.is a été créé
Au lieu d’essayer de retrouver son fondateur pour le punir, ne vaudrait-il pas mieux le soutenir comme projet utile ?
archive.org accepte les demandes de suppression des propriétaires de sites, donc en rachetant un ancien domaine, on peut aussi effacer ses archives passées
Ce n’est pas quelqu’un à glorifier, puisqu’il a entraîné des utilisateurs dans ces attaques
En tant qu’ancien concepteur de systèmes anti-spam, je pense qu’à l’avenir il existera aussi pour l’accès aux sites une forme de certification comparable à une “licence de taxi”
Par exemple, si Internet Archive envoie une requête HTTPS signée, le site peut vérifier qu’elle est authentique
Cela va à l’encontre de l’esprit de l’Internet ouvert, mais il faut un moyen de distinguer les crawlers de confiance
Je prends des décisions automatiques de blocage sur la base de ces informations
J’ai déjà documenté sur mon blog une politique de blocage par défaut des requêtes Amazon
Je pense que le New York Times est affreux. C’est justement pour cela qu’il doit absolument être préservé pour l’avenir
Chaque média ne publie que les textes conformes à son idéologie
L’EFF est tiède vis-à-vis de l’IA
Alors même que l’IA détruit Internet et l’emploi, elle ne prend pas de position ferme
Quand on regarde la liste de ses soutiens, il y a beaucoup de sponsors d’entreprise, ce qui nuit à sa crédibilité en tant qu’organisation de défense des libertés
Des organisations comme l’OSI ou l’EFF ont déjà été récupérées par les entreprises, au point d’en devenir nuisibles
S’il existait un programme distribué de crawlers IA sur IP résidentielles pour Internet Archive, je participerais volontiers
Il faudrait cependant un mécanisme empêchant les manipulations
Si quelqu’un vend à la fois de l’engrais et du diesel, il est raisonnable de supposer qu’il s’agit d’un fournisseur pour l’agriculture
Mais s’il en vend par camion entier à des non-agriculteurs, il est tout aussi normal de trouver cela suspect