- Triplegangers est une petite entreprise de 7 employés qui vend une base de données de « doubles numériques humains »
- Elle fournit des fichiers d’images 3D et des photos à des artistes 3D, des créateurs de jeux vidéo, etc.
- Problème survenu : le bot d’OpenAI a fait tomber le serveur en explorant excessivement le site web à l’aide de plus de 600 adresses IP
- Tentative de collecte de plus de 65 000 pages produit et de plusieurs centaines de milliers de photos
- Cet afflux de requêtes « semblable à une attaque DDoS » devrait faire augmenter les coûts AWS
- GPTBot d’OpenAI explore librement les données si le fichier robots.txt n’est pas correctement configuré
- L’activité du bot est autorisée par défaut si le site ne le bloque pas explicitement
- robots.txt : fichier qui définit quelles données les moteurs de recherche ne doivent pas explorer
- Triplegangers n’avait pas correctement configuré le fichier robots.txt de son site web, ce qui a permis au bot d’OpenAI de récupérer les données
- Problèmes supplémentaires :
- OpenAI peut mettre jusqu’à 24 heures pour prendre en compte une demande de blocage du crawl
- D’autres entreprises d’IA explorent elles aussi les données de manière similaire
Réponse de Triplegangers
- Mesures prises :
- Création d’un fichier robots.txt correctement configuré
- Paramétrage du compte Cloudflare pour bloquer GPTBot et d’autres crawlers d’IA
- Résultat :
- Le site a pu être stabilisé
- Mais l’entreprise ne sait pas quelles données OpenAI a récupérées, ni comment demander leur suppression
- Les outils d’opt-out inachevés d’OpenAI rendent encore plus difficile pour les entreprises d’empêcher l’exploration
Pourquoi le problème du crawl est particulièrement grave
- Les crawlers d’IA récupèrent sans autorisation les données des sites web, ce qui pose un problème majeur surtout pour des entreprises comme Triplegangers
- Sensibilité des données :
- Triplegangers possède une base de données créée à partir de scans de personnes réelles
- Les lois sur la protection de la vie privée, comme le RGPD, interdisent l’usage non autorisé de ces données
- Attractivité des données :
- Les données sont étiquetées, ce qui les rend utiles pour l’entraînement d’IA
- Exemple : l’origine ethnique, l’âge, les caractéristiques physiques, etc. sont indiqués en détail
Leçon pour les autres petites entreprises
- Détection des bots d’IA :
- Il est indispensable de surveiller les logs pour vérifier si des bots d’IA explorent le site
- La plupart des sites web ne savent même pas qu’ils ont été explorés
- Hausse du problème de crawl :
- En 2024, le trafic généralement considéré comme invalide (Invalid Traffic) a augmenté de 86 %
- Les crawlers et scrapers d’IA en sont la principale cause
Conclusion
- Le problème du crawl par les bots d’IA a un impact grave sur les petites entreprises
- Les entreprises d’IA devraient demander l’autorisation avant de prendre les données
- Les petites entreprises doivent utiliser activement robots.txt et les pare-feu, tout en assurant une surveillance continue
4 commentaires
Si les 600 IP qui ont accédé à un site sont bien réelles, on se dit qu’ils ont dû le scraper comme des fous, mais le fait qu’ils n’aient pas utilisé
robots.txtme fait un peu tiquer.Ça a l’air d’être une entreprise pour qui les données sont importantes et le site semble actif, donc ils devraient déjà commencer par configurer le plus basique, à savoir
robots.txt...Les entreprises d’IA génèrent désormais l’essentiel du trafic web
Je pense que Cloudflare est vraiment une nécessité malheureuse. C’est aussi un point unique d’attaque aux performances redoutables.
Avis sur Hacker News
Les entreprises d'IA génèrent beaucoup de trafic sur les forums
En tant que développeur web, certains se disent mécontents des scrapers inefficaces des entreprises d'IA
Certains soulignent que l'article écrit mal "robots.txt"
Certains estiment que l'histoire du web se répète
Certains s'intéressaient aux crawlers web personnels, mais sont désormais déçus par l'économie inéquitable de Google
Des auteurs ayant récemment publié des livres sur Amazon sont en concurrence avec des copies frauduleuses générées par l'IA
Avertissement : si un site n'utilise pas correctement robots.txt, l'IA peut le scraper librement
Un site peut utiliser l'erreur HTTP 429 pour réguler la vitesse des bots