-
Mon serveur Git est devenu instable à cause du crawler IA d’Amazon
-
Blog de soutien : si vous appréciez le blog, vous pouvez soutenir Xe sur Patreon
-
Abonnement Patreon : publicité EthicalAds
-
Mise à jour (2025-01-18 23:50 UTC) : j’ai écrit un proxy qui effectue une vérification de preuve de travail avant d’autoriser les requêtes vers le serveur Gitea. Il s’appelle Anubis, et je prévois d’écrire bientôt un billet de blog à son sujet. Vous pouvez déjà le voir en action sur https://git.xeserv.us/. C’est encore un peu brut, mais ça fonctionne suffisamment bien
-
Mise à jour (2025-01-18 19:00 UTC) : j’abandonne. J’ai déplacé le serveur Gitea derrière un VPN. Je travaille sur un reverse proxy à preuve de travail pour protéger le serveur des bots. Je devrais le remettre en ligne bientôt
-
Mise à jour (2025-01-17 17:50 UTC) : j’ai ajouté l’extrait suivant à la configuration de l’ingress :
nginx.ingress.kubernetes.io/configuration-snippet: | if ($http_user_agent ~* "(Amazon)" ){ return 418; }Le bot attaque toujours depuis d’autres IP. Environ 10 % des requêtes n’ont pas d’user-agent amazonbot. Je ne sais pas quoi faire ensuite. Je déteste l’avenir
-
Demande d’aide : je demande à toute personne qui gère AmazonBot d’ajouter
git.xeserv.usà la liste des domaines bloqués. Si vous connaissez quelqu’un chez Amazon, merci de lui transmettre ce message. Si vous voulez crawler le serveur Git, veuillez me contacter afin de pouvoir payer un montant correspondant au coût d’une mise à niveau matérielle. Je ne veux pas fermer le serveur Gitea au public, mais je le ferai si nécessaire. Bloquer les bots de crawling IA est futile. Les bots mentent, changent de user-agent et utilisent des adresses IP résidentielles comme proxy. J’aimerais simplement que les requêtes s’arrêtent -
Le fichier
robots.txtest déjà configuré pour bloquer tous les bots :User-agent: * Disallow: /Je ne sais pas quoi faire de plus
1 commentaires
Commentaires sur Hacker News
Il serait possible d’essayer de résoudre le problème en demandant à un avocat de rédiger une lettre de « cessation et d’abstention » claire à destination d’Amazon
Proposition de bloquer les crawlers IA en ajoutant sur le site des liens qu’aucun humain ne visiterait, puis en les interdisant dans
robots.txtLes bots d’IA et de SEO respectent rarement
robots.txtet sont difficiles à bloquerIl est possible qu’un acteur autre qu’Amazon se fasse passer pour un crawler IA
Sur un serveur personnel, les crawlers IA provoquent aussi une forte hausse de l’utilisation du CPU
robots.txtet des listes de blocage basées sur le user-agent, mais il n’est pas certain qu’il disparaisse durablementCertains estiment qu’au lieu de bloquer les crawlers IA, on pourrait résoudre le problème en leur servant du contenu nuisible
L’hypothèse d’une attaque DDoS se faisant passer pour Amazon est également avancée
Le site Pinboard a lui aussi vu son trafic exploser à cause des crawlers IA, au point de tomber en panne
Certains espèrent qu’Amazon offrira des crédits AWS pour compenser les coûts liés au surplus de trafic
Avant la mise en place d’un blocage via Nginx, Bytespider et Amazonbot représentaient 80 % de l’ensemble du trafic