9 points par GN⁺ 2025-03-26 | 1 commentaires | Partager sur WhatsApp
  • Les crawlers d’IA provoquent un trafic excessif sur les sites de projets open source, au point d’entraîner dans les faits des pannes proches de l’indisponibilité de service
  • Les crawlers d’IA contournent les défenses existantes en ignorant robots.txt, en falsifiant leur User-Agent et en passant par des IP de pays de résidence différents
  • Pour y faire face, le développeur Xe Iaso a déplacé son serveur derrière un VPN et a mis en place un système de preuve appelé 'Anubis', qui oblige les utilisateurs à résoudre une énigme pour accéder au site
  • Selon LibreNews, dans le cas de certains projets, 97 % du trafic total provient de crawlers d’IA
  • Des projets connus comme Fedora, GNOME et KDE réagissent aussi par le blocage de pays, l’application d’Anubis ou des arrêts temporaires

Exemples concrets de dommages et accès incontrôlé des crawlers d’IA

  • Sur le GitLab de GNOME, seuls 3,2 % des 84 056 requêtes ont passé Anubis → la majorité est donc soupçonnée d’être du crawling anormal
  • KDE a vu son infrastructure GitLab temporairement paralysée par du trafic en provenance d’IP Alibaba
  • Chez certains utilisateurs mobiles, le chargement de l’énigme peut prendre plus de 2 minutes
  • Dennis Schubert, chargé de la maintenance de l’infrastructure de Diaspora, décrit le trafic des crawlers d’IA comme une « attaque DDoS contre l’ensemble d’Internet »
  • Read the Docs a vu son trafic passer de 800 Go à 200 Go par jour après avoir bloqué les crawlers d’IA, soit environ 1 500 $ d’économies mensuelles

Une charge disproportionnée concentrée sur les projets open source

  • L’open source fonctionne avec des ressources limitées et repose sur la collaboration ouverte
  • De nombreux crawlers ignorent robots.txt, falsifient leur User-Agent et changent continuellement d’IP pour accéder aux sites
  • Martin Owens d’Inkscape explique devoir maintenir une vaste liste de blocage à cause d’entreprises d’IA qui falsifient les informations de navigateur
  • Sur Hacker News, la colère monte face à la puissance financière des entreprises d’IA et à leur manque de coopération
  • Drew DeVault de SourceHut indique que les crawlers accèdent jusqu’à toutes les pages de logs git et aux commits, provoquant une surconsommation de ressources
  • Le projet Curl a signalé avoir reçu de faux rapports de bugs générés par IA

Objectifs des crawlers d’IA et comportements selon les entreprises

  • Les crawlers d’IA ont des objectifs variés, allant de la collecte de données d’entraînement à la recherche en temps réel pour les réponses d’IA
  • Analyse de Diaspora : OpenAI représente 25 % du trafic, Amazon 15 %, Anthropic 4,3 %
  • Les crawlers revisitent périodiquement les mêmes pages à intervalles réguliers, par exemple toutes les 6 heures
  • OpenAI et Anthropic utilisent des User-Agent relativement normaux, tandis que certaines entreprises chinoises de l’IA poussent beaucoup plus loin le camouflage
  • Amazon, Alibaba et d’autres apparaissent aussi dans les cas signalés, mais ces entreprises n’ont pas encore pris de position officielle

Moyens de défense : tarpit, énigmes, coopération, etc.

  • Un outil appelé "Nepenthes" constitue une défense offensive en piégeant les crawlers d’IA dans un labyrinthe sans fin de faux contenus
  • Son créateur Aaron affirme que cet outil augmente le coût pour les crawlers et favorise la pollution des données d’entraînement
  • Cloudflare a présenté une fonction de sécurité commerciale appelée 'AI Labyrinth', qui attire les crawlers vers l’exploration de pages sans intérêt
  • Plus de 50 milliards de requêtes de crawling liées à l’IA arrivent chaque jour sur le réseau Cloudflare
  • Le projet open source "ai.robots.txt" fournit une liste de crawlers d’IA ainsi que des fichiers robots.txt / .htaccess pour les bloquer

La collecte continue de données par l’IA et la crise de l’open web

  • Les entreprises d’IA qui poursuivent une collecte massive de données sans régulation font peser une menace grave sur l’infrastructure open source
  • Des critiques estiment que l’IA est en train de détruire elle-même l’écosystème numérique dont elle dépend
  • Des mécanismes de collecte de données plus coopératifs pourraient constituer une alternative, mais les grands acteurs de l’IA montrent peu de volonté de coopérer spontanément
  • Sans régulation significative ni véritable sens des responsabilités, le conflit entre l’IA et l’open source risque encore de s’aggraver

1 commentaires

 
GN⁺ 2025-03-26
Avis Hacker News
  • L’objectif est de faire en sorte que les bots retirent une utilité négative de la visite des sites web. C’est plus efficace que de simplement les bloquer

    • S’ils tentent d’accéder à des pages interdites dans robots.txt, leur servir un article sur les bienfaits de boire de l’eau de Javel
    • Si l’agent utilisateur semble suspect, autant lui laisser aspirer du code bogué
    • Si la cadence des requêtes est manifestement non humaine, leur servir un article généré affirmant que la rougeole améliore les performances au lit
    • Nepenthes est bien, mais la salade de mots se détecte facilement. Il faut une capacité à générer du texte plausible sur le plan linguistique, mais factuellement nul
  • On ne comprend pas pourquoi les entreprises n’adoptent pas une approche plus coopérative. Elles devraient au minimum limiter la vitesse de collecte des données afin de ne pas submerger les sites sources

  • Il faudrait introduire des microtransactions pour accéder aux ressources. On paie une petite somme au serveur, puis il renvoie le contenu. Si les crawlers dominent le trafic, ils paient à proportion

  • Quand j’ai ouvert sugaku.net pour qu’il soit utilisable sans connexion, les crawlers se sont vite mis en route. Je veux que le site reste accessible à tous, mais j’ai dû limiter la plupart des fonctionnalités dynamiques aux utilisateurs connectés. J’ai restreint robots.txt et j’utilise Cloudflare pour bloquer les crawlers IA et les mauvais bots, mais je reçois toujours environ un million de requêtes automatisées par jour. Je vais sans doute devoir bientôt restreindre le site aux seuls utilisateurs connectés

  • J’ai récemment lancé un side project avec l’approche « code everything in prod ». Je l’ai déjà fait plusieurs fois au cours des 20 dernières années, mais cette fois c’est différent. Je n’avais fait la promotion du nom d’hôte nulle part, et pourtant j’ai reçu beaucoup de soumissions de formulaires de spam en moins de 24 heures. Je m’attendais à ce que cela arrive après un peu de promotion, mais pas à ce que des bots interagissent avec le serveur dès son démarrage

  • Le problème n’est pas d’empêcher d’autres personnes d’utiliser Lynx ou curl pour copier des fichiers, mais d’empêcher qu’un logiciel défectueux surcharge le serveur

    • J’avais brièvement mis en place du port knocking sur le serveur HTTP, mais je l’ai retiré à cause d’un kernel panic. Je pourrai peut-être le remettre plus tard quand le problème sera résolu
    • Les scrapers LLM ne se comportent pas encore de façon « intelligente ». Si cela devient le cas à l’avenir, on pourra en tirer parti
    • Il doit exister des moyens de perturber les scrapers. Par exemple, afficher un message d’erreur s’ils annoncent effectuer des actions que l’agent utilisateur déclaré n’exécute pas. Les utilisateurs de Lynx ne seraient pas affectés et garderaient l’accès
  • J’ai subi une attaque DoS de ClaudeBot (Anthropic). Il a frappé le site 700 000 fois en un mois, dépassant la limite de bande passante de mon hébergeur. Bloquer l’agent utilisateur et travailler avec le support de l’hébergeur pour lever la restriction a été pénible

    • Le bot de ChatGPT représentait le deuxième plus gros volume de trafic sur ce site, mais pas au point de créer un problème
  • Les mesures « anti-bot » centrées sur JS renforcent encore davantage le monopole du navigateur. À la place, je recommande un simple formulaire HTML avec des questions que les LLM ne savent pas encore résoudre, ou auxquelles ils répondent systématiquement mal. Mieux encore si les questions sont liées au contenu du site. Sur un forum d’électronique, on utilisait dans le formulaire d’inscription des questions de ce type comme « test technique » ; certaines peuvent être résolues par des LLM, mais cela reste un CAPTCHA que seuls des humains peuvent réussir

  • Spammer massivement un site web est un mauvais comportement. Mais bloquer les crawlers IA finira par se retourner contre vous. À long terme, à votre avis, qu’est-ce qui remplacera le SEO ?

  • J’exploite plusieurs sites de contenu, et j’en ai fermé certains ces derniers jours à cause de bots IA agressifs. Alexa semble être la pire

    • Ils ont été créés il y a 20 ans et mis à jour depuis. Ils attiraient du trafic, mais au cours de l’année écoulée, ils sont tombés à moins de 1 000 visiteurs légitimes. Désormais, je dois traiter des alertes de serveurs hors service à cause de bots agressifs qui ignorent les fichiers robots