Le bot d’OpenAI paralyse le site web d’une petite entreprise « comme une attaque DDoS »

(techcrunch.com)

6 points par GN⁺ 2025-01-14 | 4 commentaires | Partager sur WhatsApp

Triplegangers est une petite entreprise de 7 employés qui vend une base de données de « doubles numériques humains »
- Elle fournit des fichiers d’images 3D et des photos à des artistes 3D, des créateurs de jeux vidéo, etc.
Problème survenu : le bot d’OpenAI a fait tomber le serveur en explorant excessivement le site web à l’aide de plus de 600 adresses IP
- Tentative de collecte de plus de 65 000 pages produit et de plusieurs centaines de milliers de photos
- Cet afflux de requêtes « semblable à une attaque DDoS » devrait faire augmenter les coûts AWS
GPTBot d’OpenAI explore librement les données si le fichier robots.txt n’est pas correctement configuré
- L’activité du bot est autorisée par défaut si le site ne le bloque pas explicitement
- robots.txt : fichier qui définit quelles données les moteurs de recherche ne doivent pas explorer
- Triplegangers n’avait pas correctement configuré le fichier robots.txt de son site web, ce qui a permis au bot d’OpenAI de récupérer les données
Problèmes supplémentaires :
- OpenAI peut mettre jusqu’à 24 heures pour prendre en compte une demande de blocage du crawl
- D’autres entreprises d’IA explorent elles aussi les données de manière similaire

Réponse de Triplegangers

Mesures prises :
- Création d’un fichier robots.txt correctement configuré
- Paramétrage du compte Cloudflare pour bloquer GPTBot et d’autres crawlers d’IA
Résultat :
- Le site a pu être stabilisé
- Mais l’entreprise ne sait pas quelles données OpenAI a récupérées, ni comment demander leur suppression
- Les outils d’opt-out inachevés d’OpenAI rendent encore plus difficile pour les entreprises d’empêcher l’exploration

Pourquoi le problème du crawl est particulièrement grave

Les crawlers d’IA récupèrent sans autorisation les données des sites web, ce qui pose un problème majeur surtout pour des entreprises comme Triplegangers
Sensibilité des données :
- Triplegangers possède une base de données créée à partir de scans de personnes réelles
- Les lois sur la protection de la vie privée, comme le RGPD, interdisent l’usage non autorisé de ces données
Attractivité des données :
- Les données sont étiquetées, ce qui les rend utiles pour l’entraînement d’IA
- Exemple : l’origine ethnique, l’âge, les caractéristiques physiques, etc. sont indiqués en détail

Leçon pour les autres petites entreprises

Détection des bots d’IA :
- Il est indispensable de surveiller les logs pour vérifier si des bots d’IA explorent le site
- La plupart des sites web ne savent même pas qu’ils ont été explorés
Hausse du problème de crawl :
- En 2024, le trafic généralement considéré comme invalide (Invalid Traffic) a augmenté de 86 %
- Les crawlers et scrapers d’IA en sont la principale cause

Conclusion

Le problème du crawl par les bots d’IA a un impact grave sur les petites entreprises
Les entreprises d’IA devraient demander l’autorisation avant de prendre les données
Les petites entreprises doivent utiliser activement robots.txt et les pare-feu, tout en assurant une surveillance continue

4 commentaires

crawler 2025-01-14

Si les 600 IP qui ont accédé à un site sont bien réelles, on se dit qu’ils ont dû le scraper comme des fous, mais le fait qu’ils n’aient pas utilisé robots.txt me fait un peu tiquer.
Ça a l’air d’être une entreprise pour qui les données sont importantes et le site semble actif, donc ils devraient déjà commencer par configurer le plus basique, à savoir robots.txt...

xguru 2025-01-14

Les entreprises d’IA génèrent désormais l’essentiel du trafic web

unsure4000 2025-01-14

Je pense que Cloudflare est vraiment une nécessité malheureuse. C’est aussi un point unique d’attaque aux performances redoutables.

GN⁺ 2025-01-14

Avis sur Hacker News

Les entreprises d'IA génèrent beaucoup de trafic sur les forums
- Un cas chez Read the Docs indique que des bots d'IA ont généré plus de 10 To de trafic
- Il est avancé qu'OpenAI a utilisé 600 adresses IP pour scraper des données
- Seules les adresses IP du reverse proxy de Cloudflare sont enregistrées, donc les véritables IP clientes sont inconnues
- Certains estiment qu'il est injuste de parler d'attaque DDoS, car les logs ne contiennent pas d'horodatages et ne mentionnent pas la cadence des requêtes
En tant que développeur web, certains se disent mécontents des scrapers inefficaces des entreprises d'IA
- Il est recommandé de respecter la règle de base consistant à ne pas surcharger excessivement un site
- Les scrapers des entreprises d'IA sont perçus comme inefficaces et désagréables
Certains soulignent que l'article écrit mal "robots.txt"
- Utiliser des fichiers de logs sans horodatage comme preuve paraît suspect
- OpenAI n'est peut-être pas totalement innocent, mais l'article est jugé de mauvaise qualité
Certains estiment que l'histoire du web se répète
- Autrefois, il était possible d'obtenir des informations via des API, mais aujourd'hui, la plupart sont bloquées
- On espère que l'IA pourra à nouveau rendre possibles ces interactions automatisées
Certains s'intéressaient aux crawlers web personnels, mais sont désormais déçus par l'économie inéquitable de Google
- Les LLMs peuvent offrir beaucoup d'utilité, mais on craint que la peur du vol de créativité ne pousse à tout fermer
Des auteurs ayant récemment publié des livres sur Amazon sont en concurrence avec des copies frauduleuses générées par l'IA
- La BBC a interviewé des personnes ayant vécu ce type d'expérience
Avertissement : si un site n'utilise pas correctement robots.txt, l'IA peut le scraper librement
- Il est recommandé de vérifier robots.txt
Un site peut utiliser l'erreur HTTP 429 pour réguler la vitesse des bots
- Si les bots proviennent d'un sous-réseau, il est suggéré d'appliquer la règle au sous-réseau plutôt qu'à chaque IP individuellement