LWN subit l’attaque de scrapers la plus grave de son histoire

(social.kernel.org)

1 points par GN⁺ 2026-01-19 | Aucun commentaire pour le moment. | Partager sur WhatsApp

LWN.net subit une attaque DDoS de grande ampleur fondée sur le scraping provenant de dizaines de milliers d’adresses, ce qui ralentit le temps de réponse du site
Jonathan Corbet explique qu’il doit défendre le site contre des scrapers liés à l’IA ; il ne souhaite pas ériger de barrières pour les lecteurs, mais cela pourrait devenir nécessaire
Dans la communauté, certains évoquent la possibilité que des sociétés commerciales de collecte de données comme Bright Data soient derrière l’attaque, et plusieurs utilisateurs signalent des pics de trafic similaires
Certains ripostent via des abonnements RSS, la génération de sites statiques, des tarpits pour LLM ; des cas d’attaques provenant d’IP de grands clouds comme Azure, Google et AliCloud ont aussi été partagés
Cet épisode est vu comme un exemple révélateur des dommages que la collecte de données pour l’IA inflige à la stabilité de l’écosystème web et à la viabilité des créateurs

Attaque massive de scrapers contre LWN.net

Jonathan Corbet indique que LWN.net subit l’attaque de scrapers la plus grave de son histoire
- L’attaque prend la forme d’un DDoS mobilisant des dizaines de milliers d’adresses IP, ce qui dégrade la réactivité du site
- Il déclare que « défendre LWN contre des scrapers liés à l’IA n’est pas quelque chose que j’ai envie de faire », ajoutant qu’il ne souhaite pas mettre en place des barrières d’accès pour les lecteurs, mais que cela pourrait devenir nécessaire
Corbet dit ne pas pouvoir identifier l’auteur de l’attaque et mentionne la possibilité d’une implication de Bright Data ou d’un concurrent similaire
- La charge CPU est parfois très élevée ; il est possible d’étendre l’infrastructure serveur, mais il juge « agaçant de devoir payer pour nourrir de tels gens avec des articles rédigés avec soin »

Tristan Colgate-McFarlane souligne que les moteurs de recherche mettent en avant des contenus détournés, privant les auteurs d’origine de leur trafic et de leurs revenus publicitaires
Plusieurs utilisateurs rapportent avoir subi une forte hausse du trafic de scrapers IA
- Light Owl indique que le trafic de son site a été multiplié par 20 par rapport à la normale
- Ben Tasker explique bloquer une partie des requêtes grâce à des tarpits pour LLM, sortes de pièges à robots
Certains signalent des attaques provenant d’IP de grands clouds comme Azure, Google et AliCloud
- Dec, mx alex tax1a et David Gerard partagent chacun des cas de blocage de plages d’IP MSFT, Google et Ali

Riku Voipio propose d’utiliser un serveur réservé aux abonnés (subscriber.lwn.net), mais Corbet répond que cela risquerait de compliquer l’arrivée de nouveaux abonnés
Jani Nikula suggère un accès réservé aux utilisateurs enregistrés, mais Corbet rappelle que les bots créent déjà des comptes, ce qui limite l’efficacité de cette approche
trademark propose de recourir au sharding de contenu pour améliorer l’efficacité du cache, mais Corbet répond que le cache n’est pas le problème

Plusieurs administrateurs signalent des schémas d’attaque similaires
- Dec mentionne des scans de vulnérabilités PHP et des tentatives de connexion à wp-admin provenant d’IP MSFT
- David Gerard explique que RationalWiki se protège via une vérification de cookie basée sur JavaScript, avec pour effet secondaire de bloquer aussi Googlebot
- Catherine (whitequark) indique qu’elle parvient à réduire la charge serveur simplement en traitant les réponses 404

Certains affirment que « le web est réellement en train de se casser », critiquant le fait que le scraping pour l’IA accélère l’effondrement de l’écosystème web
Ayush Agarwal estime que, même dans la communauté kernel, il faut reconnaître que l’usage des LLM nuit aux petits sites
Martin Roukala remarque avec autodérision que c’est « un problème causé par une trop grande pertinence », ce à quoi Jani Nikula répond que « les scrapers ne se soucient pas de ce genre de choses »