1 points par GN⁺ 2026-01-19 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • LWN.net subit une attaque DDoS de grande ampleur fondée sur le scraping provenant de dizaines de milliers d’adresses, ce qui ralentit le temps de réponse du site
  • Jonathan Corbet explique qu’il doit défendre le site contre des scrapers liés à l’IA ; il ne souhaite pas ériger de barrières pour les lecteurs, mais cela pourrait devenir nécessaire
  • Dans la communauté, certains évoquent la possibilité que des sociétés commerciales de collecte de données comme Bright Data soient derrière l’attaque, et plusieurs utilisateurs signalent des pics de trafic similaires
  • Certains ripostent via des abonnements RSS, la génération de sites statiques, des tarpits pour LLM ; des cas d’attaques provenant d’IP de grands clouds comme Azure, Google et AliCloud ont aussi été partagés
  • Cet épisode est vu comme un exemple révélateur des dommages que la collecte de données pour l’IA inflige à la stabilité de l’écosystème web et à la viabilité des créateurs

Attaque massive de scrapers contre LWN.net

  • Jonathan Corbet indique que LWN.net subit l’attaque de scrapers la plus grave de son histoire

    • L’attaque prend la forme d’un DDoS mobilisant des dizaines de milliers d’adresses IP, ce qui dégrade la réactivité du site
    • Il déclare que « défendre LWN contre des scrapers liés à l’IA n’est pas quelque chose que j’ai envie de faire », ajoutant qu’il ne souhaite pas mettre en place des barrières d’accès pour les lecteurs, mais que cela pourrait devenir nécessaire
  • Corbet dit ne pas pouvoir identifier l’auteur de l’attaque et mentionne la possibilité d’une implication de Bright Data ou d’un concurrent similaire

    • La charge CPU est parfois très élevée ; il est possible d’étendre l’infrastructure serveur, mais il juge « agaçant de devoir payer pour nourrir de tels gens avec des articles rédigés avec soin »

Réactions et propositions de la communauté

  • Tristan Colgate-McFarlane souligne que les moteurs de recherche mettent en avant des contenus détournés, privant les auteurs d’origine de leur trafic et de leurs revenus publicitaires
  • Plusieurs utilisateurs rapportent avoir subi une forte hausse du trafic de scrapers IA
    • Light Owl indique que le trafic de son site a été multiplié par 20 par rapport à la normale
    • Ben Tasker explique bloquer une partie des requêtes grâce à des tarpits pour LLM, sortes de pièges à robots
  • Certains signalent des attaques provenant d’IP de grands clouds comme Azure, Google et AliCloud
    • Dec, mx alex tax1a et David Gerard partagent chacun des cas de blocage de plages d’IP MSFT, Google et Ali

Discussion sur les réponses possibles

  • Riku Voipio propose d’utiliser un serveur réservé aux abonnés (subscriber.lwn.net), mais Corbet répond que cela risquerait de compliquer l’arrivée de nouveaux abonnés
  • Jani Nikula suggère un accès réservé aux utilisateurs enregistrés, mais Corbet rappelle que les bots créent déjà des comptes, ce qui limite l’efficacité de cette approche
  • trademark propose de recourir au sharding de contenu pour améliorer l’efficacité du cache, mais Corbet répond que le cache n’est pas le problème

Retours d’expérience d’autres administrateurs de sites

  • Plusieurs administrateurs signalent des schémas d’attaque similaires
    • Dec mentionne des scans de vulnérabilités PHP et des tentatives de connexion à wp-admin provenant d’IP MSFT
    • David Gerard explique que RationalWiki se protège via une vérification de cookie basée sur JavaScript, avec pour effet secondaire de bloquer aussi Googlebot
    • Catherine (whitequark) indique qu’elle parvient à réduire la charge serveur simplement en traitant les réponses 404

Perception au sein de la communauté

  • Certains affirment que « le web est réellement en train de se casser », critiquant le fait que le scraping pour l’IA accélère l’effondrement de l’écosystème web
  • Ayush Agarwal estime que, même dans la communauté kernel, il faut reconnaître que l’usage des LLM nuit aux petits sites
  • Martin Roukala remarque avec autodérision que c’est « un problème causé par une trop grande pertinence », ce à quoi Jani Nikula répond que « les scrapers ne se soucient pas de ce genre de choses »

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.