1 points par GN⁺ 2025-01-19 | 1 commentaires | Partager sur WhatsApp
  • Mon serveur Git est devenu instable à cause du crawler IA d’Amazon

  • Blog de soutien : si vous appréciez le blog, vous pouvez soutenir Xe sur Patreon

  • Abonnement Patreon : publicité EthicalAds

  • Mise à jour (2025-01-18 23:50 UTC) : j’ai écrit un proxy qui effectue une vérification de preuve de travail avant d’autoriser les requêtes vers le serveur Gitea. Il s’appelle Anubis, et je prévois d’écrire bientôt un billet de blog à son sujet. Vous pouvez déjà le voir en action sur https://git.xeserv.us/. C’est encore un peu brut, mais ça fonctionne suffisamment bien

  • Mise à jour (2025-01-18 19:00 UTC) : j’abandonne. J’ai déplacé le serveur Gitea derrière un VPN. Je travaille sur un reverse proxy à preuve de travail pour protéger le serveur des bots. Je devrais le remettre en ligne bientôt

  • Mise à jour (2025-01-17 17:50 UTC) : j’ai ajouté l’extrait suivant à la configuration de l’ingress :

    nginx.ingress.kubernetes.io/configuration-snippet: |
      if ($http_user_agent ~* "(Amazon)" ){
        return 418;
      }
    

    Le bot attaque toujours depuis d’autres IP. Environ 10 % des requêtes n’ont pas d’user-agent amazonbot. Je ne sais pas quoi faire ensuite. Je déteste l’avenir

  • Demande d’aide : je demande à toute personne qui gère AmazonBot d’ajouter git.xeserv.us à la liste des domaines bloqués. Si vous connaissez quelqu’un chez Amazon, merci de lui transmettre ce message. Si vous voulez crawler le serveur Git, veuillez me contacter afin de pouvoir payer un montant correspondant au coût d’une mise à niveau matérielle. Je ne veux pas fermer le serveur Gitea au public, mais je le ferai si nécessaire. Bloquer les bots de crawling IA est futile. Les bots mentent, changent de user-agent et utilisent des adresses IP résidentielles comme proxy. J’aimerais simplement que les requêtes s’arrêtent

  • Le fichier robots.txt est déjà configuré pour bloquer tous les bots :

    User-agent: *
    Disallow: /
    

    Je ne sais pas quoi faire de plus

1 commentaires

 
GN⁺ 2025-01-19
Commentaires sur Hacker News
  • Il serait possible d’essayer de résoudre le problème en demandant à un avocat de rédiger une lettre de « cessation et d’abstention » claire à destination d’Amazon

    • Si Amazon ne cesse pas, on pourrait attirer son attention par une plainte au pénal
  • Proposition de bloquer les crawlers IA en ajoutant sur le site des liens qu’aucun humain ne visiterait, puis en les interdisant dans robots.txt

    • Si une adresse IP visite l’un de ces liens, elle est bloquée pendant 24 heures
  • Les bots d’IA et de SEO respectent rarement robots.txt et sont difficiles à bloquer

    • Si des crawlers IA veulent accéder au site, ils devraient soit respecter les règles, soit payer
  • Il est possible qu’un acteur autre qu’Amazon se fasse passer pour un crawler IA

    • Les IP résidentielles rotatives et les chaînes de user-agent changeantes paraissent suspectes
  • Sur un serveur personnel, les crawlers IA provoquent aussi une forte hausse de l’utilisation du CPU

    • Le problème a été atténué avec robots.txt et des listes de blocage basées sur le user-agent, mais il n’est pas certain qu’il disparaisse durablement
  • Certains estiment qu’au lieu de bloquer les crawlers IA, on pourrait résoudre le problème en leur servant du contenu nuisible

    • Si Amazon s’en aperçoit, l’entreprise pourrait dépenser de l’argent pour corriger le problème
  • L’hypothèse d’une attaque DDoS se faisant passer pour Amazon est également avancée

    • Le fait que les requêtes proviennent d’IP résidentielles paraît suspect
  • Le site Pinboard a lui aussi vu son trafic exploser à cause des crawlers IA, au point de tomber en panne

    • Comme il était impossible de bloquer par plages d’IP, il a fallu utiliser un CAPTCHA
  • Certains espèrent qu’Amazon offrira des crédits AWS pour compenser les coûts liés au surplus de trafic

    • Avec l’idée que les revenus publicitaires pourraient permettre de compenser cela
  • Avant la mise en place d’un blocage via Nginx, Bytespider et Amazonbot représentaient 80 % de l’ensemble du trafic

    • ClaudeBot a dépassé en un mois cinq années de trafic sur Redmine