1 points par GN⁺ 2026-01-19 | 1 commentaires | Partager sur WhatsApp
  • LWN.net subit une attaque DDoS de grande ampleur fondée sur le scraping provenant de dizaines de milliers d’adresses, ce qui ralentit le temps de réponse du site
  • Jonathan Corbet explique qu’il doit défendre le site contre des scrapers liés à l’IA ; il ne souhaite pas ériger de barrières pour les lecteurs, mais cela pourrait devenir nécessaire
  • Dans la communauté, certains évoquent la possibilité que des sociétés commerciales de collecte de données comme Bright Data soient derrière l’attaque, et plusieurs utilisateurs signalent des pics de trafic similaires
  • Certains ripostent via des abonnements RSS, la génération de sites statiques, des tarpits pour LLM ; des cas d’attaques provenant d’IP de grands clouds comme Azure, Google et AliCloud ont aussi été partagés
  • Cet épisode est vu comme un exemple révélateur des dommages que la collecte de données pour l’IA inflige à la stabilité de l’écosystème web et à la viabilité des créateurs

Attaque massive de scrapers contre LWN.net

  • Jonathan Corbet indique que LWN.net subit l’attaque de scrapers la plus grave de son histoire

    • L’attaque prend la forme d’un DDoS mobilisant des dizaines de milliers d’adresses IP, ce qui dégrade la réactivité du site
    • Il déclare que « défendre LWN contre des scrapers liés à l’IA n’est pas quelque chose que j’ai envie de faire », ajoutant qu’il ne souhaite pas mettre en place des barrières d’accès pour les lecteurs, mais que cela pourrait devenir nécessaire
  • Corbet dit ne pas pouvoir identifier l’auteur de l’attaque et mentionne la possibilité d’une implication de Bright Data ou d’un concurrent similaire

    Publicité
    • La charge CPU est parfois très élevée ; il est possible d’étendre l’infrastructure serveur, mais il juge « agaçant de devoir payer pour nourrir de tels gens avec des articles rédigés avec soin »

Réactions et propositions de la communauté

  • Tristan Colgate-McFarlane souligne que les moteurs de recherche mettent en avant des contenus détournés, privant les auteurs d’origine de leur trafic et de leurs revenus publicitaires
  • Plusieurs utilisateurs rapportent avoir subi une forte hausse du trafic de scrapers IA
    • Light Owl indique que le trafic de son site a été multiplié par 20 par rapport à la normale
    • Ben Tasker explique bloquer une partie des requêtes grâce à des tarpits pour LLM, sortes de pièges à robots
  • Certains signalent des attaques provenant d’IP de grands clouds comme Azure, Google et AliCloud
    • Dec, mx alex tax1a et David Gerard partagent chacun des cas de blocage de plages d’IP MSFT, Google et Ali
Publicité

Discussion sur les réponses possibles

  • Riku Voipio propose d’utiliser un serveur réservé aux abonnés (subscriber.lwn.net), mais Corbet répond que cela risquerait de compliquer l’arrivée de nouveaux abonnés
  • Jani Nikula suggère un accès réservé aux utilisateurs enregistrés, mais Corbet rappelle que les bots créent déjà des comptes, ce qui limite l’efficacité de cette approche
  • trademark propose de recourir au sharding de contenu pour améliorer l’efficacité du cache, mais Corbet répond que le cache n’est pas le problème

Retours d’expérience d’autres administrateurs de sites

  • Plusieurs administrateurs signalent des schémas d’attaque similaires
    • Dec mentionne des scans de vulnérabilités PHP et des tentatives de connexion à wp-admin provenant d’IP MSFT
    • David Gerard explique que RationalWiki se protège via une vérification de cookie basée sur JavaScript, avec pour effet secondaire de bloquer aussi Googlebot
    • Catherine (whitequark) indique qu’elle parvient à réduire la charge serveur simplement en traitant les réponses 404

Perception au sein de la communauté

  • Certains affirment que « le web est réellement en train de se casser », critiquant le fait que le scraping pour l’IA accélère l’effondrement de l’écosystème web
  • Ayush Agarwal estime que, même dans la communauté kernel, il faut reconnaître que l’usage des LLM nuit aux petits sites
  • Martin Roukala remarque avec autodérision que c’est « un problème causé par une trop grande pertinence », ce à quoi Jani Nikula répond que « les scrapers ne se soucient pas de ce genre de choses »

1 commentaires

 
GN⁺ 2026-01-19
Avis sur Hacker News
  • Je me demande qui exploite ces scrapers agressifs
    Si ce sont des labos d’IA, il peut être efficace de ratisser simultanément une multitude de sites pour collecter des données, mais je ne comprends pas pourquoi ils iraient jusqu’à surcharger des sites populaires en acceptant le risque pour leur réputation

    • Dans ce genre de cas, il y a souvent un manque de compétence technique ou de considération
      Ils ont probablement testé à la va-vite un scraper généré directement par une IA avant de le déployer aussitôt
      En plus, ils masquent leur identité via un « residential IP provider », donc il n’y a même pas de risque réputationnel
      Même si c’était une grande entreprise comme OpenAI ou Anthropic, j’ai l’impression que les gens laisseraient simplement passer
    • Au début, on soupçonnait de grandes entreprises américaines comme OpenAI ou Anthropic, mais en réalité ce sont de plus en plus souvent des agents IA personnels qui récupèrent des pages web
      Avec des outils comme Claude Cowork, les utilisateurs peuvent créer eux-mêmes leurs crawlers ; il m’est arrivé d’être temporairement bloqué après avoir bombardé des pages 404 sur le site de la NASA
      Au final, même des utilisateurs « bien intentionnés » sont en train de modifier les schémas de trafic du web
      On peut voir des statistiques à ce sujet dans Cloudflare AI Insights
    • Mon site personnel aussi est parfois paralysé par des scrapers
      À part GPTBot d’OpenAI, c’étaient surtout de petites entreprises dont je n’avais jamais entendu parler, et certaines cachaient même leur User-Agent
      Les données sont déjà dans Common Crawl, donc je ne comprends pas pourquoi ils s’acharnent à les récupérer eux-mêmes
    • Quelqu’un a probablement demandé à Claude Code « d’archiver l’intégralité de LWN »
    • LWN inclut plusieurs archives de listes de diffusion, donc ça peut aussi être la raison
  • Le gros problème, c’est que l’IA revend comme si elle l’avait écrit elle-même du code open source en contournant les licences
    Et ce n’est pas limité au code : elle aspire aussi les autres contenus

    • J’ai travaillé sur un ancien projet autour de jeux DOS, et Claude a repris mon code presque tel quel pour le reproduire sous une autre licence
      Seuls les noms de variables changeaient légèrement, la structure restait identique
      Si quelqu’un faisait ça dans une entreprise, il serait viré immédiatement
      Pourtant, quand c’est une IA qui le fait, on prétend qu’il y aurait une légitimité morale au nom du « fair use », ce qui est étrange
    • Au final, le blanchiment de propriété intellectuelle est en train de devenir une nouvelle version du blanchiment d’argent
    • Cela dit, il n’y a jamais eu de décision de justice affirmant que ce comportement de l’IA est légal ; c’est simplement ce que prétend l’industrie de l’IA
  • Ce scraping n’est peut-être pas simplement de la collecte de données pour l’IA
    Les sites FOSS sont attaqués en continu, et ça ne tient pas économiquement
    Il y a peut-être derrière cela une volonté de perturber l’industrie tech ou la communauté open source

    • Des communautés de modding de jeux de niche ont subi les mêmes attaques
      Alors qu’il s’agissait de projets à but non lucratif, elles ont reçu un trafic digne d’un DDOS et ont fini par devoir mettre en place un mur de connexion
    • Il est probable que beaucoup de data scientists ne se soucient même pas de la fréquence à laquelle les scrapers générés par IA frappent les sites
    • Plusieurs forums que je suivais ont eux aussi fini par devenir illisibles sans connexion
    • J’administre moi aussi un petit wiki de jeu sur navigateur, et une foule de bots, dont ceux de Claude et d’OpenAI, le ratissent de manière agressive
      La plupart utilisaient des IP résidentielles, et le vrai problème semble venir de gens qui pensent simplement que « tout ce qui est sur Internet leur appartient »
    • Heureusement, quand il s’agit d’une communauté de loisir locale, on peut se permettre de bloquer de façon plus agressive
  • Mon blog est trop inintéressant pour avoir des problèmes de scraping

    • Cela dit, c’est grâce à ce blog que j’ai découvert Git Brag pour la première fois. C’est plutôt intéressant
    • Si on peut rendre un LLM ennuyeux, c’est presque un exploit
  • Comme le dit l’expression « une attaque DDOS impliquant des dizaines de milliers d’adresses », l’attaque est extrêmement distribuée
    Même sur de petits sites, le trafic arrive depuis des milliers d’IP

    • Ces attaques passent le plus souvent par des services de proxy résidentiel
      BrightData est l’exemple typique ; c’est plus cher que des IP de datacenter, mais beaucoup plus difficile à bloquer
    • git.ardour.org a lui aussi subi un scraping git absurde depuis plus d’un million d’IP
    • L’interprétation la plus généreuse, c’est que les entreprises d’IA ignorent l’existence de ressources alternatives comme CommonCrawl et scrapent directement ;
      l’interprétation la pire, c’est qu’il s’agit simplement de développeurs antisociaux ayant fabriqué des bots sans réfléchir
    • J’aimerais appeler ce type d’attaque « Distributed Intelligence Logic Denial Of Service (DILDOS) »
  • Les proxies résidentiels devraient en pratique être considérés comme des malwares
    Il faudrait les ajouter aux définitions des antivirus et les bannir aussi des app stores

  • Je me demande si c’est vraiment du scraping pour l’entraînement de l’IA
    Si on ne peut pas le distinguer d’un DDOS ordinaire, peut-on vraiment en être sûr ?

    • Pourtant, LWN existe depuis près de 30 ans, et avant le crawling de l’IA, il n’y avait pas de DDOS
  • On dirait que l’attaque s’est arrêtée pour le moment
    La page d’accueil se charge normalement aussi

  • Pour bloquer les scrapers de blog, j’ai surchargé des méthodes JavaScript pour vider le contenu de la page
    En cachant les éléments avec Shadow DOM, on peut rendre la tâche encore plus difficile
    En revanche, ce genre de méthode pose des problèmes avec des outils de test comme Playwright ou Selenium ainsi qu’avec l’indexation par les moteurs de recherche

    • Mais je ne peux pas affirmer avec certitude que cette méthode a réellement été efficace
    • Faire en sorte qu’une fonction génère des données absurdes pour semer la confusion chez les bots est aussi une idée amusante
  • Certains affirment que « les entreprises d’IA cherchent à paralyser les sites concurrents par DDOS pour monopoliser les données »

    • Mais ça ressemble à une théorie du complot
    • On pourrait y voir une forme de stratégie consistant à « retirer l’échelle »
    • Mais LWN est déjà un ancien site de newsletter, donc il a très peu de données de valeur
      Scraper un site comme celui-là n’apporte rien à une IA, et cette lecture ressemble plutôt à de la paranoïa excessive