Mon serveur Git rendu instable par le crawler IA d’Amazon

(xeiaso.net)

1 points par GN⁺ 2025-01-19 | 1 commentaires | Partager sur WhatsApp

Mon serveur Git est devenu instable à cause du crawler IA d’Amazon
Blog de soutien : si vous appréciez le blog, vous pouvez soutenir Xe sur Patreon
Abonnement Patreon : publicité EthicalAds
Mise à jour (2025-01-18 23:50 UTC) : j’ai écrit un proxy qui effectue une vérification de preuve de travail avant d’autoriser les requêtes vers le serveur Gitea. Il s’appelle Anubis, et je prévois d’écrire bientôt un billet de blog à son sujet. Vous pouvez déjà le voir en action sur https://git.xeserv.us/. C’est encore un peu brut, mais ça fonctionne suffisamment bien
Mise à jour (2025-01-18 19:00 UTC) : j’abandonne. J’ai déplacé le serveur Gitea derrière un VPN. Je travaille sur un reverse proxy à preuve de travail pour protéger le serveur des bots. Je devrais le remettre en ligne bientôt
Mise à jour (2025-01-17 17:50 UTC) : j’ai ajouté l’extrait suivant à la configuration de l’ingress :
```
nginx.ingress.kubernetes.io/configuration-snippet: |
  if ($http_user_agent ~* "(Amazon)" ){
    return 418;
  }
```
Le bot attaque toujours depuis d’autres IP. Environ 10 % des requêtes n’ont pas d’user-agent amazonbot. Je ne sais pas quoi faire ensuite. Je déteste l’avenir
Demande d’aide : je demande à toute personne qui gère AmazonBot d’ajouter git.xeserv.us à la liste des domaines bloqués. Si vous connaissez quelqu’un chez Amazon, merci de lui transmettre ce message. Si vous voulez crawler le serveur Git, veuillez me contacter afin de pouvoir payer un montant correspondant au coût d’une mise à niveau matérielle. Je ne veux pas fermer le serveur Gitea au public, mais je le ferai si nécessaire. Bloquer les bots de crawling IA est futile. Les bots mentent, changent de user-agent et utilisent des adresses IP résidentielles comme proxy. J’aimerais simplement que les requêtes s’arrêtent
Le fichier robots.txt est déjà configuré pour bloquer tous les bots :
```
User-agent: *
Disallow: /
```
Je ne sais pas quoi faire de plus

1 commentaires

GN⁺ 2025-01-19

Commentaires sur Hacker News

Il serait possible d’essayer de résoudre le problème en demandant à un avocat de rédiger une lettre de « cessation et d’abstention » claire à destination d’Amazon
- Si Amazon ne cesse pas, on pourrait attirer son attention par une plainte au pénal
Proposition de bloquer les crawlers IA en ajoutant sur le site des liens qu’aucun humain ne visiterait, puis en les interdisant dans robots.txt
- Si une adresse IP visite l’un de ces liens, elle est bloquée pendant 24 heures
Les bots d’IA et de SEO respectent rarement robots.txt et sont difficiles à bloquer
- Si des crawlers IA veulent accéder au site, ils devraient soit respecter les règles, soit payer
Il est possible qu’un acteur autre qu’Amazon se fasse passer pour un crawler IA
- Les IP résidentielles rotatives et les chaînes de user-agent changeantes paraissent suspectes
Sur un serveur personnel, les crawlers IA provoquent aussi une forte hausse de l’utilisation du CPU
- Le problème a été atténué avec robots.txt et des listes de blocage basées sur le user-agent, mais il n’est pas certain qu’il disparaisse durablement
Certains estiment qu’au lieu de bloquer les crawlers IA, on pourrait résoudre le problème en leur servant du contenu nuisible
- Si Amazon s’en aperçoit, l’entreprise pourrait dépenser de l’argent pour corriger le problème
L’hypothèse d’une attaque DDoS se faisant passer pour Amazon est également avancée
- Le fait que les requêtes proviennent d’IP résidentielles paraît suspect
Le site Pinboard a lui aussi vu son trafic exploser à cause des crawlers IA, au point de tomber en panne
- Comme il était impossible de bloquer par plages d’IP, il a fallu utiliser un CAPTCHA
Certains espèrent qu’Amazon offrira des crédits AWS pour compenser les coûts liés au surplus de trafic
- Avec l’idée que les revenus publicitaires pourraient permettre de compenser cela
Avant la mise en place d’un blocage via Nginx, Bytespider et Amazonbot représentaient 80 % de l’ensemble du trafic
- ClaudeBot a dépassé en un mois cinq années de trafic sur Redmine

Mon serveur Git rendu instable par le crawler IA d’Amazon

Mon serveur Git est devenu instable à cause du crawler IA d’Amazon

À lire aussi

1 commentaires

Commentaires sur Hacker News