L’infrastructure FOSS est attaquée par des entreprises d’IA

(thelibre.news)

1 points par GN⁺ 2025-03-21 | 1 commentaires | Partager sur WhatsApp

Drew DeVault (fondateur de SourceHut) avertit que des crawlers d’IA ignorent robots.txt et provoquent de graves pannes sur SourceHut
L’infrastructure GitLab de KDE est elle aussi devenue inaccessible à cause d’une attaque de crawlers d’IA provenant de plages d’IP d’Alibaba
Problèmes posés par les crawlers d’IA
- Les crawlers d’IA ignorent les exigences de robots.txt
  - Ils crawlent toutes les pages et tous les commits de git blame et git log
  - Ils envoient des requêtes avec des User-Agent aléatoires et depuis des dizaines de milliers d’IP → ils se déguisent en trafic utilisateur normal
- Difficiles à bloquer → des tâches prioritaires sont retardées de plusieurs semaines ou plusieurs mois
Plaintes des administrateurs système
- Le problème des crawlers d’IA n’est pas un cas isolé mais un problème généralisé
  - De nombreux administrateurs système rencontrent le même problème
  - OpenAI et Anthropic définissent des User-Agent précis, mais ce n’est pas le cas des entreprises chinoises d’IA
Réponse de KDE GitLab
- Blocage des bots se faisant passer pour MS Edge → solution temporaire
- GNOME applique une limitation de débit pour la consultation des merge requests et des commits par les utilisateurs non connectés
- Adoption d’Anubis → accès autorisé après résolution d’un défi par le navigateur
Problèmes d’Anubis
- Impact aussi sur les utilisateurs → temps nécessaire pour résoudre le défi
  - Quand un lien est partagé dans un salon de discussion, cela provoque une surcharge → temps d’attente de 1 à 2 minutes
97 % du trafic est composé de bots
- Chez GNOME, 81 000 requêtes en deux heures et demie → 97 % venaient de crawlers d’IA
- Certains projets ont vu leur trafic baisser de 75 % après avoir bloqué les crawlers d’IA
Problèmes dans d’autres projets FOSS
- Fedora → blocage de toutes les IP du Brésil pour arrêter les crawlers
- Inkscape → les crawlers falsifient les informations du navigateur → blocages massifs d’IP
- Frama Software → création d’une liste de blocage de 460 000 IP
Projets de réponse aux crawlers d’IA
- ai.robots.txt → fournit une liste ouverte pour bloquer les crawlers d’IA
  - Configuration de fichiers robots.txt et .htaccess → renvoi d’une page d’erreur en cas de requête d’un crawler d’IA
Résultats de l’analyse du trafic
- Dans le cas de Diaspora, 70 % du trafic provient de crawlers d’IA
  - User-Agent d’OpenAI : 25 %
  - Amazon : 15 %
  - Anthropic : 4,3 %
- La part de trafic des crawlers de Google et Bing est inférieure à 1 %
Problème des rapports de bug générés par l’IA
- Le projet Curl rencontre un problème de rapports de bug générés par l’IA
  - La plupart des bugs signalés relèvent d’hallucinations
- CPython, pip, urllib3, Requests → temps perdu à traiter des rapports de sécurité générés par l’IA
  - Fiabilité faible → mais nécessité de vérifier → charge accrue pour les mainteneurs

Conclusion

Les crawlers d’IA et les rapports de bug générés par l’IA imposent une lourde charge à la communauté open source
Les projets open source disposent de moins de ressources que les produits commerciaux et, reposant sur la communauté, sont plus vulnérables à ce type de problèmes

1 commentaires

GN⁺ 2025-03-21

Avis Hacker News

De nombreuses personnes qui exploitent des infrastructures Internet à grande échelle vivent des expériences similaires
- Un article partage des témoignages sur les abus des crawlers d’IA et rassemble ces problèmes en un seul endroit
- Certaines startups ont résolu le problème et remboursé les coûts, mais Facebook ne répond pas aux e-mails
Fastly fournit des services de sécurité gratuits aux projets FOSS
- Les demandes liées au scraping par l’IA ont récemment augmenté
Il est surprenant de voir son propre projet apparaître dans l’image d’aperçu
- Le projet est déployé sur xeiaso.net pour vérifier son fonctionnement en conditions réelles
Ce ne sont pas seulement les infrastructures FOSS qui sont menacées, mais l’accès anonyme à Internet lui-même
- De nouveaux bots peuvent résoudre les captchas et se comporter comme de vrais utilisateurs
- Il est possible que les sites finissent par exiger une vérification comme une carte bancaire ou Worldcoin
Une instance Forgejo a récemment été attaquée
- Le disque s’est rempli de fichiers zip générés, et le blocage des plages d’IP d’Alibaba Cloud a réduit l’attaque
- Il est recommandé de définir le paramètre DISABLE_DOWNLOAD_SOURCE_ARCHIVES sur true
Par le passé, robots.txt a été créé pour résoudre les problèmes posés par les moteurs de recherche, mais les nouveaux indexeurs l’ignorent désormais
- Il est avancé que des sanctions juridiques sont nécessaires
La domination du web par Google et la publicité va s’affaiblir
- À cause des captchas, les moteurs de recherche ne pourront plus indexer les sites, ce qui réduira leur valeur
Utiliser LLaMa pour générer des publications contradictoires afin de semer la confusion dans l’information
VideoLAN aussi subit des attaques de bots d’entreprises d’IA contre son forum et son Gitlab
- La plupart des bots ignorent robots.txt
Il pourrait émerger un web qui n’est pas indexé par les moteurs de recherche
- Comme solution au scraping des LLM, il est proposé d’exiger une preuve de travail

L’infrastructure FOSS est attaquée par des entreprises d’IA

Conclusion

À lire aussi

1 commentaires

Avis Hacker News