LWN subit l’attaque de scrapers la plus grave de son histoire
(social.kernel.org)- LWN.net subit une attaque DDoS de grande ampleur fondée sur le scraping provenant de dizaines de milliers d’adresses, ce qui ralentit le temps de réponse du site
- Jonathan Corbet explique qu’il doit défendre le site contre des scrapers liés à l’IA ; il ne souhaite pas ériger de barrières pour les lecteurs, mais cela pourrait devenir nécessaire
- Dans la communauté, certains évoquent la possibilité que des sociétés commerciales de collecte de données comme Bright Data soient derrière l’attaque, et plusieurs utilisateurs signalent des pics de trafic similaires
- Certains ripostent via des abonnements RSS, la génération de sites statiques, des tarpits pour LLM ; des cas d’attaques provenant d’IP de grands clouds comme Azure, Google et AliCloud ont aussi été partagés
- Cet épisode est vu comme un exemple révélateur des dommages que la collecte de données pour l’IA inflige à la stabilité de l’écosystème web et à la viabilité des créateurs
Attaque massive de scrapers contre LWN.net
-
Jonathan Corbet indique que LWN.net subit l’attaque de scrapers la plus grave de son histoire
- L’attaque prend la forme d’un DDoS mobilisant des dizaines de milliers d’adresses IP, ce qui dégrade la réactivité du site
- Il déclare que « défendre LWN contre des scrapers liés à l’IA n’est pas quelque chose que j’ai envie de faire », ajoutant qu’il ne souhaite pas mettre en place des barrières d’accès pour les lecteurs, mais que cela pourrait devenir nécessaire
-
Corbet dit ne pas pouvoir identifier l’auteur de l’attaque et mentionne la possibilité d’une implication de Bright Data ou d’un concurrent similaire
- La charge CPU est parfois très élevée ; il est possible d’étendre l’infrastructure serveur, mais il juge « agaçant de devoir payer pour nourrir de tels gens avec des articles rédigés avec soin »
Réactions et propositions de la communauté
- Tristan Colgate-McFarlane souligne que les moteurs de recherche mettent en avant des contenus détournés, privant les auteurs d’origine de leur trafic et de leurs revenus publicitaires
- Plusieurs utilisateurs rapportent avoir subi une forte hausse du trafic de scrapers IA
- Light Owl indique que le trafic de son site a été multiplié par 20 par rapport à la normale
- Ben Tasker explique bloquer une partie des requêtes grâce à des tarpits pour LLM, sortes de pièges à robots
- Certains signalent des attaques provenant d’IP de grands clouds comme Azure, Google et AliCloud
- Dec, mx alex tax1a et David Gerard partagent chacun des cas de blocage de plages d’IP MSFT, Google et Ali
Discussion sur les réponses possibles
- Riku Voipio propose d’utiliser un serveur réservé aux abonnés (
subscriber.lwn.net), mais Corbet répond que cela risquerait de compliquer l’arrivée de nouveaux abonnés - Jani Nikula suggère un accès réservé aux utilisateurs enregistrés, mais Corbet rappelle que les bots créent déjà des comptes, ce qui limite l’efficacité de cette approche
- trademark propose de recourir au sharding de contenu pour améliorer l’efficacité du cache, mais Corbet répond que le cache n’est pas le problème
Retours d’expérience d’autres administrateurs de sites
- Plusieurs administrateurs signalent des schémas d’attaque similaires
- Dec mentionne des scans de vulnérabilités PHP et des tentatives de connexion à
wp-adminprovenant d’IP MSFT - David Gerard explique que RationalWiki se protège via une vérification de cookie basée sur JavaScript, avec pour effet secondaire de bloquer aussi Googlebot
- Catherine (whitequark) indique qu’elle parvient à réduire la charge serveur simplement en traitant les réponses 404
- Dec mentionne des scans de vulnérabilités PHP et des tentatives de connexion à
Perception au sein de la communauté
- Certains affirment que « le web est réellement en train de se casser », critiquant le fait que le scraping pour l’IA accélère l’effondrement de l’écosystème web
- Ayush Agarwal estime que, même dans la communauté kernel, il faut reconnaître que l’usage des LLM nuit aux petits sites
- Martin Roukala remarque avec autodérision que c’est « un problème causé par une trop grande pertinence », ce à quoi Jani Nikula répond que « les scrapers ne se soucient pas de ce genre de choses »
1 commentaires
Avis sur Hacker News
Je me demande qui exploite ces scrapers agressifs
Si ce sont des labos d’IA, il peut être efficace de ratisser simultanément une multitude de sites pour collecter des données, mais je ne comprends pas pourquoi ils iraient jusqu’à surcharger des sites populaires en acceptant le risque pour leur réputation
Ils ont probablement testé à la va-vite un scraper généré directement par une IA avant de le déployer aussitôt
En plus, ils masquent leur identité via un « residential IP provider », donc il n’y a même pas de risque réputationnel
Même si c’était une grande entreprise comme OpenAI ou Anthropic, j’ai l’impression que les gens laisseraient simplement passer
Avec des outils comme Claude Cowork, les utilisateurs peuvent créer eux-mêmes leurs crawlers ; il m’est arrivé d’être temporairement bloqué après avoir bombardé des pages 404 sur le site de la NASA
Au final, même des utilisateurs « bien intentionnés » sont en train de modifier les schémas de trafic du web
On peut voir des statistiques à ce sujet dans Cloudflare AI Insights
À part GPTBot d’OpenAI, c’étaient surtout de petites entreprises dont je n’avais jamais entendu parler, et certaines cachaient même leur User-Agent
Les données sont déjà dans Common Crawl, donc je ne comprends pas pourquoi ils s’acharnent à les récupérer eux-mêmes
Le gros problème, c’est que l’IA revend comme si elle l’avait écrit elle-même du code open source en contournant les licences
Et ce n’est pas limité au code : elle aspire aussi les autres contenus
Seuls les noms de variables changeaient légèrement, la structure restait identique
Si quelqu’un faisait ça dans une entreprise, il serait viré immédiatement
Pourtant, quand c’est une IA qui le fait, on prétend qu’il y aurait une légitimité morale au nom du « fair use », ce qui est étrange
Ce scraping n’est peut-être pas simplement de la collecte de données pour l’IA
Les sites FOSS sont attaqués en continu, et ça ne tient pas économiquement
Il y a peut-être derrière cela une volonté de perturber l’industrie tech ou la communauté open source
Alors qu’il s’agissait de projets à but non lucratif, elles ont reçu un trafic digne d’un DDOS et ont fini par devoir mettre en place un mur de connexion
La plupart utilisaient des IP résidentielles, et le vrai problème semble venir de gens qui pensent simplement que « tout ce qui est sur Internet leur appartient »
Mon blog est trop inintéressant pour avoir des problèmes de scraping
Comme le dit l’expression « une attaque DDOS impliquant des dizaines de milliers d’adresses », l’attaque est extrêmement distribuée
Même sur de petits sites, le trafic arrive depuis des milliers d’IP
BrightData est l’exemple typique ; c’est plus cher que des IP de datacenter, mais beaucoup plus difficile à bloquer
l’interprétation la pire, c’est qu’il s’agit simplement de développeurs antisociaux ayant fabriqué des bots sans réfléchir
Les proxies résidentiels devraient en pratique être considérés comme des malwares
Il faudrait les ajouter aux définitions des antivirus et les bannir aussi des app stores
Je me demande si c’est vraiment du scraping pour l’entraînement de l’IA
Si on ne peut pas le distinguer d’un DDOS ordinaire, peut-on vraiment en être sûr ?
On dirait que l’attaque s’est arrêtée pour le moment
La page d’accueil se charge normalement aussi
Pour bloquer les scrapers de blog, j’ai surchargé des méthodes JavaScript pour vider le contenu de la page
En cachant les éléments avec Shadow DOM, on peut rendre la tâche encore plus difficile
En revanche, ce genre de méthode pose des problèmes avec des outils de test comme Playwright ou Selenium ainsi qu’avec l’indexation par les moteurs de recherche
Certains affirment que « les entreprises d’IA cherchent à paralyser les sites concurrents par DDOS pour monopoliser les données »
Scraper un site comme celui-là n’apporte rien à une IA, et cette lecture ressemble plutôt à de la paranoïa excessive