Les entreprises d’IA génèrent la majorité du trafic web
(pod.geraspora.de)- Une analyse récente des problèmes de pics de charge et de ralentissements sur l’infrastructure web du projet diaspora (Discourse, Wiki, site web du projet, etc.) montre que « la majeure partie du trafic est générée par des bots de crawl liés aux LLM »
- Au cours des 60 derniers jours, 11,3 millions de requêtes ont été reçues (en moyenne 2,19 req/s), dont plus de 70 % provenaient de bots de crawl liés aux LLM
- GPTBot/1.2 : 24,6 % (2,78 millions de requêtes)
- Amazonbot/0.1 : 14,9 % (1,69 million de requêtes)
- ClaudeBot/1.0 : 4,3 % (490 000 requêtes)
- meta-externalagent/1.1 : 2,2 % (220 000 requêtes)
- Modèles de crawl anormaux
- Crawl répété : la même page est crawlée toutes les 6 heures
- Ignorent
robots.txt: ne respectent absolument pas les règles de limitation du crawl - Crawl inefficace : collecte massive de données inutiles (par exemple, tout l’historique des modifications du Wiki)
- Pics de charge : à certains moments, ils génèrent plus de 10 req/s, surchargeant la base de données et le serveur MediaWiki
- Défense impossible
- Changement d’IP : changement continu d’adresse IP pour contourner le rate limiting
- Changement de chaîne UA : modification arbitraire du user agent du bot pour contourner les blocages
- Les crawlers des moteurs de recherche traditionnels comme Googlebot et Bingbot montrent au contraire des modèles de crawl normaux et efficaces.
- Googlebot : 0,14 % (16 600 requêtes)
- Bingbot : 0,14 % (15 900 requêtes)
- Réduction au minimum des crawls en doublon, respect des règles de
robots.txt
Résultats et impact
- Impossible de fournir un service efficace : les bots de crawl LLM dégradent fortement l’expérience des utilisateurs humains
- Surcharge des serveurs : le serveur de base de données et MediaWiki subissent de façon répétée des pics de charge
- En pratique, un DDoS à l’échelle d’Internet : cette manière de crawler entraîne un gaspillage inutile de ressources à l’échelle mondiale
Conclusion
- En raison des modèles de trafic anormaux des bots de crawl LLM, l’infrastructure subit une pression continue, et les tentatives de défense ne parviennent pas à être efficaces
- Le problème dépasse la simple fatigue individuelle et a un impact grave sur l’ensemble de l’écosystème Internet
1 commentaires
Avis Hacker News
Partage l’expérience d’un bot IA de Meta qui a crawlé un site web de manière excessive jusqu’à faire tomber le serveur, et explique comment le bloquer avec Cloudflare
Partage des données de trafic de bots observées sur diverses plateformes
robots.txtou ne font pas de backoff même lorsqu’il y a de la latenceDiscute des moyens de bloquer les bots
Mentionne le cas de la fermeture du forum CGTalk à cause de problèmes de ressources
Soutient que les entreprises d’IA devraient scraper de manière plus intelligente
Exprime sa curiosité au sujet des attaques par empoisonnement
Partage l’expérience d’une application déployée sur GCP dont les coûts ont augmenté à cause du trafic de bots
Partage une expérience de crawl d’un grand forum
Soutient que le comportement de bots qui ignorent
robots.txtet nuisent au service pourrait être considéré comme illégal