14 points par GN⁺ 2024-12-31 | 1 commentaires | Partager sur WhatsApp
  • Une analyse récente des problèmes de pics de charge et de ralentissements sur l’infrastructure web du projet diaspora (Discourse, Wiki, site web du projet, etc.) montre que « la majeure partie du trafic est générée par des bots de crawl liés aux LLM »
  • Au cours des 60 derniers jours, 11,3 millions de requêtes ont été reçues (en moyenne 2,19 req/s), dont plus de 70 % provenaient de bots de crawl liés aux LLM
    • GPTBot/1.2 : 24,6 % (2,78 millions de requêtes)
    • Amazonbot/0.1 : 14,9 % (1,69 million de requêtes)
    • ClaudeBot/1.0 : 4,3 % (490 000 requêtes)
    • meta-externalagent/1.1 : 2,2 % (220 000 requêtes)
  • Modèles de crawl anormaux
    • Crawl répété : la même page est crawlée toutes les 6 heures
    • Ignorent robots.txt : ne respectent absolument pas les règles de limitation du crawl
    • Crawl inefficace : collecte massive de données inutiles (par exemple, tout l’historique des modifications du Wiki)
    • Pics de charge : à certains moments, ils génèrent plus de 10 req/s, surchargeant la base de données et le serveur MediaWiki
  • Défense impossible
    • Changement d’IP : changement continu d’adresse IP pour contourner le rate limiting
    • Changement de chaîne UA : modification arbitraire du user agent du bot pour contourner les blocages
  • Les crawlers des moteurs de recherche traditionnels comme Googlebot et Bingbot montrent au contraire des modèles de crawl normaux et efficaces.
    • Googlebot : 0,14 % (16 600 requêtes)
    • Bingbot : 0,14 % (15 900 requêtes)
  • Réduction au minimum des crawls en doublon, respect des règles de robots.txt

Résultats et impact

  • Impossible de fournir un service efficace : les bots de crawl LLM dégradent fortement l’expérience des utilisateurs humains
  • Surcharge des serveurs : le serveur de base de données et MediaWiki subissent de façon répétée des pics de charge
  • En pratique, un DDoS à l’échelle d’Internet : cette manière de crawler entraîne un gaspillage inutile de ressources à l’échelle mondiale

Conclusion

  • En raison des modèles de trafic anormaux des bots de crawl LLM, l’infrastructure subit une pression continue, et les tentatives de défense ne parviennent pas à être efficaces
  • Le problème dépasse la simple fatigue individuelle et a un impact grave sur l’ensemble de l’écosystème Internet

1 commentaires

 
GN⁺ 2024-12-31
Avis Hacker News
  • Partage l’expérience d’un bot IA de Meta qui a crawlé un site web de manière excessive jusqu’à faire tomber le serveur, et explique comment le bloquer avec Cloudflare

    • Mentionne que la fonction de blocage des bots IA de Cloudflare est utile
    • Affirme que l’accès des bots IA au contenu n’a aucune valeur
  • Partage des données de trafic de bots observées sur diverses plateformes

    • Des bots comme Claude, Amazon, Data For SEO, Chat GPT, etc. génèrent beaucoup de trafic
    • Explique que ces bots ignorent robots.txt ou ne font pas de backoff même lorsqu’il y a de la latence
  • Discute des moyens de bloquer les bots

    • Décrit le comportement de bots qui changent d’IP ou basculent vers un User Agent non identifié comme bot
    • Partage un lien GitHub publiant les plages d’IP d’OpenAI
    • Propose une méthode pour bloquer les bots IA à l’aide d’un plugin WordPress
  • Mentionne le cas de la fermeture du forum CGTalk à cause de problèmes de ressources

    • De nombreux forums migrent vers Slack ou Discord pour réduire la charge d’exploitation des serveurs
  • Soutient que les entreprises d’IA devraient scraper de manière plus intelligente

    • Indique que le comportement des entreprises d’IA est honteux
  • Exprime sa curiosité au sujet des attaques par empoisonnement

    • Explore la possibilité de perturber les modèles d’IA avec du contenu erroné rédigé par des humains
  • Partage l’expérience d’une application déployée sur GCP dont les coûts ont augmenté à cause du trafic de bots

    • Suppose que le fait d’avoir partagé l’application sur Reddit en est la cause
  • Partage une expérience de crawl d’un grand forum

    • Mentionne que ChatGPT connaît très bien l’historique du forum
    • Propose l’idée d’ajouter du texte susceptible d’influencer les LLMs
  • Soutient que le comportement de bots qui ignorent robots.txt et nuisent au service pourrait être considéré comme illégal

    • Recommande de contacter les autorités locales chargées de l’application des lois en matière de cybercriminalité