6 points par GN⁺ 2025-01-14 | 4 commentaires | Partager sur WhatsApp
  • Triplegangers est une petite entreprise de 7 employés qui vend une base de données de « doubles numériques humains »
    • Elle fournit des fichiers d’images 3D et des photos à des artistes 3D, des créateurs de jeux vidéo, etc.
  • Problème survenu : le bot d’OpenAI a fait tomber le serveur en explorant excessivement le site web à l’aide de plus de 600 adresses IP
    • Tentative de collecte de plus de 65 000 pages produit et de plusieurs centaines de milliers de photos
    • Cet afflux de requêtes « semblable à une attaque DDoS » devrait faire augmenter les coûts AWS
  • GPTBot d’OpenAI explore librement les données si le fichier robots.txt n’est pas correctement configuré
    • L’activité du bot est autorisée par défaut si le site ne le bloque pas explicitement
    • robots.txt : fichier qui définit quelles données les moteurs de recherche ne doivent pas explorer
    • Triplegangers n’avait pas correctement configuré le fichier robots.txt de son site web, ce qui a permis au bot d’OpenAI de récupérer les données
  • Problèmes supplémentaires :
    • OpenAI peut mettre jusqu’à 24 heures pour prendre en compte une demande de blocage du crawl
    • D’autres entreprises d’IA explorent elles aussi les données de manière similaire

Réponse de Triplegangers

  • Mesures prises :
    • Création d’un fichier robots.txt correctement configuré
    • Paramétrage du compte Cloudflare pour bloquer GPTBot et d’autres crawlers d’IA
  • Résultat :
    • Le site a pu être stabilisé
    • Mais l’entreprise ne sait pas quelles données OpenAI a récupérées, ni comment demander leur suppression
    • Les outils d’opt-out inachevés d’OpenAI rendent encore plus difficile pour les entreprises d’empêcher l’exploration

Pourquoi le problème du crawl est particulièrement grave

  • Les crawlers d’IA récupèrent sans autorisation les données des sites web, ce qui pose un problème majeur surtout pour des entreprises comme Triplegangers
  • Sensibilité des données :
    • Triplegangers possède une base de données créée à partir de scans de personnes réelles
    • Les lois sur la protection de la vie privée, comme le RGPD, interdisent l’usage non autorisé de ces données
  • Attractivité des données :
    • Les données sont étiquetées, ce qui les rend utiles pour l’entraînement d’IA
    • Exemple : l’origine ethnique, l’âge, les caractéristiques physiques, etc. sont indiqués en détail

Leçon pour les autres petites entreprises

  • Détection des bots d’IA :
    • Il est indispensable de surveiller les logs pour vérifier si des bots d’IA explorent le site
    • La plupart des sites web ne savent même pas qu’ils ont été explorés
  • Hausse du problème de crawl :
    • En 2024, le trafic généralement considéré comme invalide (Invalid Traffic) a augmenté de 86 %
    • Les crawlers et scrapers d’IA en sont la principale cause

Conclusion

  • Le problème du crawl par les bots d’IA a un impact grave sur les petites entreprises
  • Les entreprises d’IA devraient demander l’autorisation avant de prendre les données
  • Les petites entreprises doivent utiliser activement robots.txt et les pare-feu, tout en assurant une surveillance continue

4 commentaires

 
crawler 2025-01-14

Si les 600 IP qui ont accédé à un site sont bien réelles, on se dit qu’ils ont dû le scraper comme des fous, mais le fait qu’ils n’aient pas utilisé robots.txt me fait un peu tiquer.
Ça a l’air d’être une entreprise pour qui les données sont importantes et le site semble actif, donc ils devraient déjà commencer par configurer le plus basique, à savoir robots.txt...

 
unsure4000 2025-01-14

Je pense que Cloudflare est vraiment une nécessité malheureuse. C’est aussi un point unique d’attaque aux performances redoutables.

 
GN⁺ 2025-01-14
Avis sur Hacker News
  • Les entreprises d'IA génèrent beaucoup de trafic sur les forums

    • Un cas chez Read the Docs indique que des bots d'IA ont généré plus de 10 To de trafic
    • Il est avancé qu'OpenAI a utilisé 600 adresses IP pour scraper des données
    • Seules les adresses IP du reverse proxy de Cloudflare sont enregistrées, donc les véritables IP clientes sont inconnues
    • Certains estiment qu'il est injuste de parler d'attaque DDoS, car les logs ne contiennent pas d'horodatages et ne mentionnent pas la cadence des requêtes
  • En tant que développeur web, certains se disent mécontents des scrapers inefficaces des entreprises d'IA

    • Il est recommandé de respecter la règle de base consistant à ne pas surcharger excessivement un site
    • Les scrapers des entreprises d'IA sont perçus comme inefficaces et désagréables
  • Certains soulignent que l'article écrit mal "robots.txt"

    • Utiliser des fichiers de logs sans horodatage comme preuve paraît suspect
    • OpenAI n'est peut-être pas totalement innocent, mais l'article est jugé de mauvaise qualité
  • Certains estiment que l'histoire du web se répète

    • Autrefois, il était possible d'obtenir des informations via des API, mais aujourd'hui, la plupart sont bloquées
    • On espère que l'IA pourra à nouveau rendre possibles ces interactions automatisées
  • Certains s'intéressaient aux crawlers web personnels, mais sont désormais déçus par l'économie inéquitable de Google

    • Les LLMs peuvent offrir beaucoup d'utilité, mais on craint que la peur du vol de créativité ne pousse à tout fermer
  • Des auteurs ayant récemment publié des livres sur Amazon sont en concurrence avec des copies frauduleuses générées par l'IA

    • La BBC a interviewé des personnes ayant vécu ce type d'expérience
  • Avertissement : si un site n'utilise pas correctement robots.txt, l'IA peut le scraper librement

    • Il est recommandé de vérifier robots.txt
  • Un site peut utiliser l'erreur HTTP 429 pour réguler la vitesse des bots

    • Si les bots proviennent d'un sous-réseau, il est suggéré d'appliquer la règle au sous-réseau plutôt qu'à chaque IP individuellement