LWN subit l’attaque de scrapers la plus grave de son histoire
(social.kernel.org)- LWN.net subit une attaque DDoS de grande ampleur fondée sur le scraping provenant de dizaines de milliers d’adresses, ce qui ralentit le temps de réponse du site
- Jonathan Corbet explique qu’il doit défendre le site contre des scrapers liés à l’IA ; il ne souhaite pas ériger de barrières pour les lecteurs, mais cela pourrait devenir nécessaire
- Dans la communauté, certains évoquent la possibilité que des sociétés commerciales de collecte de données comme Bright Data soient derrière l’attaque, et plusieurs utilisateurs signalent des pics de trafic similaires
- Certains ripostent via des abonnements RSS, la génération de sites statiques, des tarpits pour LLM ; des cas d’attaques provenant d’IP de grands clouds comme Azure, Google et AliCloud ont aussi été partagés
- Cet épisode est vu comme un exemple révélateur des dommages que la collecte de données pour l’IA inflige à la stabilité de l’écosystème web et à la viabilité des créateurs
Attaque massive de scrapers contre LWN.net
-
Jonathan Corbet indique que LWN.net subit l’attaque de scrapers la plus grave de son histoire
- L’attaque prend la forme d’un DDoS mobilisant des dizaines de milliers d’adresses IP, ce qui dégrade la réactivité du site
- Il déclare que « défendre LWN contre des scrapers liés à l’IA n’est pas quelque chose que j’ai envie de faire », ajoutant qu’il ne souhaite pas mettre en place des barrières d’accès pour les lecteurs, mais que cela pourrait devenir nécessaire
-
Corbet dit ne pas pouvoir identifier l’auteur de l’attaque et mentionne la possibilité d’une implication de Bright Data ou d’un concurrent similaire
- La charge CPU est parfois très élevée ; il est possible d’étendre l’infrastructure serveur, mais il juge « agaçant de devoir payer pour nourrir de tels gens avec des articles rédigés avec soin »
Réactions et propositions de la communauté
- Tristan Colgate-McFarlane souligne que les moteurs de recherche mettent en avant des contenus détournés, privant les auteurs d’origine de leur trafic et de leurs revenus publicitaires
- Plusieurs utilisateurs rapportent avoir subi une forte hausse du trafic de scrapers IA
- Light Owl indique que le trafic de son site a été multiplié par 20 par rapport à la normale
- Ben Tasker explique bloquer une partie des requêtes grâce à des tarpits pour LLM, sortes de pièges à robots
- Certains signalent des attaques provenant d’IP de grands clouds comme Azure, Google et AliCloud
- Dec, mx alex tax1a et David Gerard partagent chacun des cas de blocage de plages d’IP MSFT, Google et Ali
Discussion sur les réponses possibles
- Riku Voipio propose d’utiliser un serveur réservé aux abonnés (
subscriber.lwn.net), mais Corbet répond que cela risquerait de compliquer l’arrivée de nouveaux abonnés - Jani Nikula suggère un accès réservé aux utilisateurs enregistrés, mais Corbet rappelle que les bots créent déjà des comptes, ce qui limite l’efficacité de cette approche
- trademark propose de recourir au sharding de contenu pour améliorer l’efficacité du cache, mais Corbet répond que le cache n’est pas le problème
Retours d’expérience d’autres administrateurs de sites
- Plusieurs administrateurs signalent des schémas d’attaque similaires
- Dec mentionne des scans de vulnérabilités PHP et des tentatives de connexion à
wp-adminprovenant d’IP MSFT - David Gerard explique que RationalWiki se protège via une vérification de cookie basée sur JavaScript, avec pour effet secondaire de bloquer aussi Googlebot
- Catherine (whitequark) indique qu’elle parvient à réduire la charge serveur simplement en traitant les réponses 404
- Dec mentionne des scans de vulnérabilités PHP et des tentatives de connexion à
Perception au sein de la communauté
- Certains affirment que « le web est réellement en train de se casser », critiquant le fait que le scraping pour l’IA accélère l’effondrement de l’écosystème web
- Ayush Agarwal estime que, même dans la communauté kernel, il faut reconnaître que l’usage des LLM nuit aux petits sites
- Martin Roukala remarque avec autodérision que c’est « un problème causé par une trop grande pertinence », ce à quoi Jani Nikula répond que « les scrapers ne se soucient pas de ce genre de choses »
Aucun commentaire pour le moment.