1 points par GN⁺ 2025-03-21 | 1 commentaires | Partager sur WhatsApp
  • Drew DeVault (fondateur de SourceHut) avertit que des crawlers d’IA ignorent robots.txt et provoquent de graves pannes sur SourceHut
  • L’infrastructure GitLab de KDE est elle aussi devenue inaccessible à cause d’une attaque de crawlers d’IA provenant de plages d’IP d’Alibaba
  • Problèmes posés par les crawlers d’IA
    • Les crawlers d’IA ignorent les exigences de robots.txt
      • Ils crawlent toutes les pages et tous les commits de git blame et git log
      • Ils envoient des requêtes avec des User-Agent aléatoires et depuis des dizaines de milliers d’IP → ils se déguisent en trafic utilisateur normal
    • Difficiles à bloquer → des tâches prioritaires sont retardées de plusieurs semaines ou plusieurs mois
  • Plaintes des administrateurs système
    • Le problème des crawlers d’IA n’est pas un cas isolé mais un problème généralisé
      • De nombreux administrateurs système rencontrent le même problème
      • OpenAI et Anthropic définissent des User-Agent précis, mais ce n’est pas le cas des entreprises chinoises d’IA
  • Réponse de KDE GitLab
    • Blocage des bots se faisant passer pour MS Edge → solution temporaire
    • GNOME applique une limitation de débit pour la consultation des merge requests et des commits par les utilisateurs non connectés
    • Adoption d’Anubis → accès autorisé après résolution d’un défi par le navigateur
  • Problèmes d’Anubis
    • Impact aussi sur les utilisateurs → temps nécessaire pour résoudre le défi
      • Quand un lien est partagé dans un salon de discussion, cela provoque une surcharge → temps d’attente de 1 à 2 minutes
  • 97 % du trafic est composé de bots
    • Chez GNOME, 81 000 requêtes en deux heures et demie → 97 % venaient de crawlers d’IA
    • Certains projets ont vu leur trafic baisser de 75 % après avoir bloqué les crawlers d’IA
  • Problèmes dans d’autres projets FOSS
    • Fedora → blocage de toutes les IP du Brésil pour arrêter les crawlers
    • Inkscape → les crawlers falsifient les informations du navigateur → blocages massifs d’IP
    • Frama Software → création d’une liste de blocage de 460 000 IP
  • Projets de réponse aux crawlers d’IA
    • ai.robots.txt → fournit une liste ouverte pour bloquer les crawlers d’IA
      • Configuration de fichiers robots.txt et .htaccess → renvoi d’une page d’erreur en cas de requête d’un crawler d’IA
  • Résultats de l’analyse du trafic
    • Dans le cas de Diaspora, 70 % du trafic provient de crawlers d’IA
      • User-Agent d’OpenAI : 25 %
      • Amazon : 15 %
      • Anthropic : 4,3 %
    • La part de trafic des crawlers de Google et Bing est inférieure à 1 %
  • Problème des rapports de bug générés par l’IA
    • Le projet Curl rencontre un problème de rapports de bug générés par l’IA
      • La plupart des bugs signalés relèvent d’hallucinations
    • CPython, pip, urllib3, Requests → temps perdu à traiter des rapports de sécurité générés par l’IA
      • Fiabilité faible → mais nécessité de vérifier → charge accrue pour les mainteneurs

Conclusion

  • Les crawlers d’IA et les rapports de bug générés par l’IA imposent une lourde charge à la communauté open source
  • Les projets open source disposent de moins de ressources que les produits commerciaux et, reposant sur la communauté, sont plus vulnérables à ce type de problèmes

1 commentaires

 
GN⁺ 2025-03-21
Avis Hacker News
  • De nombreuses personnes qui exploitent des infrastructures Internet à grande échelle vivent des expériences similaires

    • Un article partage des témoignages sur les abus des crawlers d’IA et rassemble ces problèmes en un seul endroit
    • Certaines startups ont résolu le problème et remboursé les coûts, mais Facebook ne répond pas aux e-mails
  • Fastly fournit des services de sécurité gratuits aux projets FOSS

    • Les demandes liées au scraping par l’IA ont récemment augmenté
  • Il est surprenant de voir son propre projet apparaître dans l’image d’aperçu

    • Le projet est déployé sur xeiaso.net pour vérifier son fonctionnement en conditions réelles
  • Ce ne sont pas seulement les infrastructures FOSS qui sont menacées, mais l’accès anonyme à Internet lui-même

    • De nouveaux bots peuvent résoudre les captchas et se comporter comme de vrais utilisateurs
    • Il est possible que les sites finissent par exiger une vérification comme une carte bancaire ou Worldcoin
  • Une instance Forgejo a récemment été attaquée

    • Le disque s’est rempli de fichiers zip générés, et le blocage des plages d’IP d’Alibaba Cloud a réduit l’attaque
    • Il est recommandé de définir le paramètre DISABLE_DOWNLOAD_SOURCE_ARCHIVES sur true
  • Par le passé, robots.txt a été créé pour résoudre les problèmes posés par les moteurs de recherche, mais les nouveaux indexeurs l’ignorent désormais

    • Il est avancé que des sanctions juridiques sont nécessaires
  • La domination du web par Google et la publicité va s’affaiblir

    • À cause des captchas, les moteurs de recherche ne pourront plus indexer les sites, ce qui réduira leur valeur
  • Utiliser LLaMa pour générer des publications contradictoires afin de semer la confusion dans l’information

  • VideoLAN aussi subit des attaques de bots d’entreprises d’IA contre son forum et son Gitlab

    • La plupart des bots ignorent robots.txt
  • Il pourrait émerger un web qui n’est pas indexé par les moteurs de recherche

    • Comme solution au scraping des LLM, il est proposé d’exiger une preuve de travail