Les entreprises d’IA génèrent la majorité du trafic web

(pod.geraspora.de)

14 points par GN⁺ 2024-12-31 | 1 commentaires | Partager sur WhatsApp

Une analyse récente des problèmes de pics de charge et de ralentissements sur l’infrastructure web du projet diaspora (Discourse, Wiki, site web du projet, etc.) montre que « la majeure partie du trafic est générée par des bots de crawl liés aux LLM »
Au cours des 60 derniers jours, 11,3 millions de requêtes ont été reçues (en moyenne 2,19 req/s), dont plus de 70 % provenaient de bots de crawl liés aux LLM
- GPTBot/1.2 : 24,6 % (2,78 millions de requêtes)
- Amazonbot/0.1 : 14,9 % (1,69 million de requêtes)
- ClaudeBot/1.0 : 4,3 % (490 000 requêtes)
- meta-externalagent/1.1 : 2,2 % (220 000 requêtes)
Modèles de crawl anormaux
- Crawl répété : la même page est crawlée toutes les 6 heures
- Ignorent robots.txt : ne respectent absolument pas les règles de limitation du crawl
- Crawl inefficace : collecte massive de données inutiles (par exemple, tout l’historique des modifications du Wiki)
- Pics de charge : à certains moments, ils génèrent plus de 10 req/s, surchargeant la base de données et le serveur MediaWiki
Défense impossible
- Changement d’IP : changement continu d’adresse IP pour contourner le rate limiting
- Changement de chaîne UA : modification arbitraire du user agent du bot pour contourner les blocages
Les crawlers des moteurs de recherche traditionnels comme Googlebot et Bingbot montrent au contraire des modèles de crawl normaux et efficaces.
- Googlebot : 0,14 % (16 600 requêtes)
- Bingbot : 0,14 % (15 900 requêtes)
Réduction au minimum des crawls en doublon, respect des règles de robots.txt

Résultats et impact

Impossible de fournir un service efficace : les bots de crawl LLM dégradent fortement l’expérience des utilisateurs humains
Surcharge des serveurs : le serveur de base de données et MediaWiki subissent de façon répétée des pics de charge
En pratique, un DDoS à l’échelle d’Internet : cette manière de crawler entraîne un gaspillage inutile de ressources à l’échelle mondiale

Conclusion

En raison des modèles de trafic anormaux des bots de crawl LLM, l’infrastructure subit une pression continue, et les tentatives de défense ne parviennent pas à être efficaces
Le problème dépasse la simple fatigue individuelle et a un impact grave sur l’ensemble de l’écosystème Internet

1 commentaires

GN⁺ 2024-12-31

Avis Hacker News

Partage l’expérience d’un bot IA de Meta qui a crawlé un site web de manière excessive jusqu’à faire tomber le serveur, et explique comment le bloquer avec Cloudflare
- Mentionne que la fonction de blocage des bots IA de Cloudflare est utile
- Affirme que l’accès des bots IA au contenu n’a aucune valeur
Partage des données de trafic de bots observées sur diverses plateformes
- Des bots comme Claude, Amazon, Data For SEO, Chat GPT, etc. génèrent beaucoup de trafic
- Explique que ces bots ignorent robots.txt ou ne font pas de backoff même lorsqu’il y a de la latence
Discute des moyens de bloquer les bots
- Décrit le comportement de bots qui changent d’IP ou basculent vers un User Agent non identifié comme bot
- Partage un lien GitHub publiant les plages d’IP d’OpenAI
- Propose une méthode pour bloquer les bots IA à l’aide d’un plugin WordPress
Mentionne le cas de la fermeture du forum CGTalk à cause de problèmes de ressources
- De nombreux forums migrent vers Slack ou Discord pour réduire la charge d’exploitation des serveurs
Soutient que les entreprises d’IA devraient scraper de manière plus intelligente
- Indique que le comportement des entreprises d’IA est honteux
Exprime sa curiosité au sujet des attaques par empoisonnement
- Explore la possibilité de perturber les modèles d’IA avec du contenu erroné rédigé par des humains
Partage l’expérience d’une application déployée sur GCP dont les coûts ont augmenté à cause du trafic de bots
- Suppose que le fait d’avoir partagé l’application sur Reddit en est la cause
Partage une expérience de crawl d’un grand forum
- Mentionne que ChatGPT connaît très bien l’historique du forum
- Propose l’idée d’ajouter du texte susceptible d’influencer les LLMs
Soutient que le comportement de bots qui ignorent robots.txt et nuisent au service pourrait être considéré comme illégal
- Recommande de contacter les autorités locales chargées de l’application des lois en matière de cybercriminalité

Les entreprises d’IA génèrent la majorité du trafic web

Résultats et impact

Conclusion

À lire aussi

1 commentaires

Avis Hacker News