- Drew DeVault (fondateur de SourceHut) avertit que des crawlers d’IA ignorent robots.txt et provoquent de graves pannes sur SourceHut
- L’infrastructure GitLab de KDE est elle aussi devenue inaccessible à cause d’une attaque de crawlers d’IA provenant de plages d’IP d’Alibaba
- Problèmes posés par les crawlers d’IA
- Les crawlers d’IA ignorent les exigences de robots.txt
- Ils crawlent toutes les pages et tous les commits de git blame et git log
- Ils envoient des requêtes avec des User-Agent aléatoires et depuis des dizaines de milliers d’IP → ils se déguisent en trafic utilisateur normal
- Difficiles à bloquer → des tâches prioritaires sont retardées de plusieurs semaines ou plusieurs mois
- Plaintes des administrateurs système
- Le problème des crawlers d’IA n’est pas un cas isolé mais un problème généralisé
- De nombreux administrateurs système rencontrent le même problème
- OpenAI et Anthropic définissent des User-Agent précis, mais ce n’est pas le cas des entreprises chinoises d’IA
- Réponse de KDE GitLab
- Blocage des bots se faisant passer pour MS Edge → solution temporaire
- GNOME applique une limitation de débit pour la consultation des merge requests et des commits par les utilisateurs non connectés
- Adoption d’Anubis → accès autorisé après résolution d’un défi par le navigateur
- Problèmes d’Anubis
- Impact aussi sur les utilisateurs → temps nécessaire pour résoudre le défi
- Quand un lien est partagé dans un salon de discussion, cela provoque une surcharge → temps d’attente de 1 à 2 minutes
- 97 % du trafic est composé de bots
- Chez GNOME, 81 000 requêtes en deux heures et demie → 97 % venaient de crawlers d’IA
- Certains projets ont vu leur trafic baisser de 75 % après avoir bloqué les crawlers d’IA
- Problèmes dans d’autres projets FOSS
- Fedora → blocage de toutes les IP du Brésil pour arrêter les crawlers
- Inkscape → les crawlers falsifient les informations du navigateur → blocages massifs d’IP
- Frama Software → création d’une liste de blocage de 460 000 IP
- Projets de réponse aux crawlers d’IA
- ai.robots.txt → fournit une liste ouverte pour bloquer les crawlers d’IA
- Configuration de fichiers robots.txt et .htaccess → renvoi d’une page d’erreur en cas de requête d’un crawler d’IA
- Résultats de l’analyse du trafic
- Dans le cas de Diaspora, 70 % du trafic provient de crawlers d’IA
- User-Agent d’OpenAI : 25 %
- Amazon : 15 %
- Anthropic : 4,3 %
- La part de trafic des crawlers de Google et Bing est inférieure à 1 %
- Problème des rapports de bug générés par l’IA
- Le projet Curl rencontre un problème de rapports de bug générés par l’IA
- La plupart des bugs signalés relèvent d’hallucinations
- CPython, pip, urllib3, Requests → temps perdu à traiter des rapports de sécurité générés par l’IA
- Fiabilité faible → mais nécessité de vérifier → charge accrue pour les mainteneurs
Conclusion
- Les crawlers d’IA et les rapports de bug générés par l’IA imposent une lourde charge à la communauté open source
- Les projets open source disposent de moins de ressources que les produits commerciaux et, reposant sur la communauté, sont plus vulnérables à ce type de problèmes
1 commentaires
Avis Hacker News
De nombreuses personnes qui exploitent des infrastructures Internet à grande échelle vivent des expériences similaires
Fastly fournit des services de sécurité gratuits aux projets FOSS
Il est surprenant de voir son propre projet apparaître dans l’image d’aperçu
Ce ne sont pas seulement les infrastructures FOSS qui sont menacées, mais l’accès anonyme à Internet lui-même
Une instance Forgejo a récemment été attaquée
DISABLE_DOWNLOAD_SOURCE_ARCHIVESsurtruePar le passé,
robots.txta été créé pour résoudre les problèmes posés par les moteurs de recherche, mais les nouveaux indexeurs l’ignorent désormaisLa domination du web par Google et la publicité va s’affaiblir
Utiliser LLaMa pour générer des publications contradictoires afin de semer la confusion dans l’information
VideoLAN aussi subit des attaques de bots d’entreprises d’IA contre son forum et son Gitlab
robots.txtIl pourrait émerger un web qui n’est pas indexé par les moteurs de recherche