1 points par GN⁺ 2026-01-14 | 1 commentaires | Partager sur WhatsApp
  • Ces derniers temps, les collectes de données non autorisées par des entreprises d’IA surchargeant les serveurs de MetaBrainz sont devenues un problème majeur
  • Elles ignorent les règles de robots.txt et explorent les données de MusicBrainz page par page, une méthode inefficace qui prendrait des centaines d’années
  • Le même comportement s’est étendu à l’API ListenBrainz, entraînant des mesures de protection comme l’exigence d’un jeton d’authentification et la fermeture de certaines API
  • LB Radio n’est désormais accessible qu’aux utilisateurs connectés, et les appels API nécessitent aussi un en-tête Authorization
  • Ces mesures sont présentées comme une réponse indispensable pour préserver l’accès des utilisateurs légitimes

Problème de surcharge des serveurs causé par les scrapers IA

  • L’équipe MetaBrainz fait face depuis plusieurs mois à des crawlings non autorisés destinés à collecter des données pour l’entraînement de modèles d’IA
    • Certaines entreprises d’IA ignorent les règles élémentaires de savoir-vivre sur Internet comme robots.txt pour aspirer les données
    • Elles accèdent aux données de MusicBrainz en demandant chaque page individuellement, au lieu de télécharger l’ensemble, ce qui est plus inefficace et génère une forte charge serveur
  • Cette approche atteint un niveau d’inefficacité tel qu’il faudrait des centaines d’années, et finit par empêcher l’accès des utilisateurs normaux

Mesures de protection de l’API ListenBrainz

  • Des scrapers IA ont tenté de collecter des données sur plusieurs endpoints de l’API ListenBrainz
  • En conséquence, les changements suivants ont été appliqués :
    • L’API /metadata/lookup (GET et POST) ne fonctionne plus sans jeton Authorization
    • Les endpoints mbid-mapping, mbid-mapping-release et mbid-mapping-explain de la ListenBrainz Labs API ont été supprimés
      • Cette API était fournie à l’origine à des fins de débogage et sera remplacée plus tard par un endpoint pour un nouveau mapper
    • LB Radio n’est disponible que pour les utilisateurs connectés, et les appels API exigent un en-tête Authorization

Réponse d’urgence pour garantir la stabilité du service

  • MetaBrainz explique que ces mesures étaient inévitables pour éviter la surcharge du service et maintenir un fonctionnement normal
  • L’équipe s’excuse pour ces changements sans préavis et prévoit d’améliorer les messages d’erreur une fois les projets de fin d’année terminés

Réactions de la communauté

  • Dans les commentaires, la discussion a porté sur l’approche inefficace des scrapers IA et la structure des spiders web automatisés
    • Certains utilisateurs ont dénoncé « l’incompétence des opérateurs de l’IA »
    • D’autres ont expliqué que « les crawlers automatisés suivent simplement les liens pour collecter les données »

Portée générale

  • Les mesures de MetaBrainz illustrent les dommages causés aux projets de données ouvertes par la collecte de données liée à l’IA
  • Pour assurer la pérennité des API publiques, le renforcement de l’authentification et les restrictions d’accès deviennent inévitables

1 commentaires

 
GN⁺ 2026-01-14
Commentaires Hacker News
  • MetaBrainz est vraiment une excellente base de données d’intérêt public
    J’avais déjà écrit un billet sur ce sujet sur le blog de l’EFF
    Que des bots d’IA récupèrent des données publiques comme celles de MetaBrainz ne me dérange pas, mais le problème, c’est qu’ils le font de manière inefficace
    Au fond, c’est un problème d’échec de coordination. MetaBrainz part du principe que les bots sont de bonne foi, tandis que les bots supposent que le site cache les données
    Même quand on leur dit « arrêtez de marteler l’API et récupérez plutôt ce fichier tar gzippé en une fois », ils n’y croient pas
    À la limite, le proposer sous forme de torrent pourrait mieux inciter les bots à partager les données

    • Moi aussi, j’ai fermé mon site tvnfo.com à cause des scrapers IA
      Il était public depuis 2016, mais la consommation de ressources est devenue trop importante, donc il est désormais réservé aux soutiens
      C’est un projet hobby à 60 dollars par mois, donc c’est difficile à maintenir. Si le soutien augmente plus tard, je pourrai peut-être le rouvrir en y ajoutant une solution de défense contre les bots
      Mais j’ai été surpris de voir que je n’étais pas le seul à subir ce problème. On dirait qu’au final, Internet se referme de plus en plus
    • Je me demande s’il existe un moyen, via robots.txt, d’indiquer « récupérez plutôt le fichier tar ici »
      Je ne sais pas si le standard prévoit ce genre de fonctionnalité
    • Si les bots utilisent des torrents, ils pourraient aussi manipuler les statistiques de partage
      À une époque, moi aussi j’avais gonflé mon ratio d’upload pour éviter d’être banni d’un tracker privé
    • Le fait que les bots considèrent les sites comme des entités hostiles est un problème sérieux
      Ignorer la volonté des propriétaires de sites est une mauvaise approche
    • En réalité, la plupart des « scrapers IA » ne sont que de simples scripts de crawler récursifs
      Ce n’est pas une vraie IA qui lit les pages et prend des décisions, juste du code automatisé qui suit les liens et aspire les documents
  • L’IA est en train de détruire le libre écosystème du Web
    Mon hébergeur a soudain suspendu mon compte à cause d’une explosion du trafic de bots
    J’ai fini par migrer vers un nouvel hébergeur, mais pour les gens qui gèrent un site seuls, il n’y a aucun espoir dans ce genre de situation
    Les entreprises d’IA ont des ressources infinies et ne se soucient pas des dégâts causés
    Si on veut être cynique, c’est peut-être même une stratégie délibérée — faire disparaître les sites gratuits pour que les gens finissent par n’obtenir l’information qu’à travers des modèles d’IA

    • Les services de résumé par IA sont en train de capturer plus de la moitié du trafic du Web indépendant
      L’économie du partage d’information est en train de s’effondrer
      Au final, une poignée d’entreprises accaparera toute la valeur, puis l’enshittification commencera
  • Je gère le site de la PTA de l’école de mon enfant, et un bot d’OpenAI a aspiré aléatoirement le calendrier des événements
    Les requêtes allaient de l’an 1000 à l’an 3000
    Une fois le User-Agent bloqué, cela ne s’est arrêté qu’environ 4 heures plus tard

  • J’exploite un site web statique et une instance cgit sur un VPS e2-micro de Google Cloud
    En 160 jours, j’ai reçu plus de 8,5 millions de requêtes venant d’OpenAI et de Claude
    J’ai donc configuré lighttpd pour renvoyer 403 quand le User-Agent contient « claude|openai », et j’ai mis en place une limitation de débit avec nftables

    • Ces bots font encore partie des plus « corrects »
      Le vrai problème, c’est le botnet utilisant des proxys résidentiels. Il se fait passer pour un navigateur classique
    • OpenAI publie une liste officielle des IP de bots, mais Anthropic ne le fait pas
    • Fait intéressant, mon blog GitHub ne subit aucun scraping de ce type
      Je me demande si Microsoft le bloque, ou si mon blog est simplement trop peu intéressant pour les bots
  • Cloudflare propose désormais un service de détection des scrapers IA
    Il redirige les bots détectés vers des pages générées par IA en boucle infinie

    • Mais pour faire cela, tout le trafic doit passer par Cloudflare
      Au final, cela revient à laisser un tiers décider qui a le droit d’accéder à mon contenu, et ça me gêne
    • Cloudflare pose souvent des problèmes d’accès aux utilisateurs de VPN ou de navigateurs rares
      J’ai moi-même eu beaucoup de frustrations et je l’ai finalement retiré
    • Je ne pense pas que ce soit approprié en tant que « service d’ajout et de retrait de TLS »
    • Dans le même esprit, il y a le projet Poison Fountain
    • Si Cloudflare agrège suffisamment de sites, il pourrait aussi facturer aux entreprises d’IA l’accès au cache
  • L’équipe de SQLite a connu un problème similaire
    Son créateur Richard Hipp a dénoncé ce « comportement égoïste », en disant qu’« il suffirait de cloner tout le dépôt, au lieu de scraper en gênant tout le monde »
    Voir le message de forum correspondant

    • Mais quelqu’un a rétorqué que parler d’intention malveillante était une formulation beaucoup trop forte
  • Avec le temps, je me dis de plus en plus qu’il faudrait regrouper tout le crawling via des canaux communs comme Common Crawl
    Il faut réduire la charge sur les serveurs tout en préservant l’ouverture du Web et la possibilité de le scraper
    On pourrait par exemple standardiser cela en plaçant, sous le chemin /well-known/, des liens vers des dumps de données horodatés

    • MetaBrainz utilise déjà cette approche — l’intégralité de la base est fournie sous forme de tarball
      Moi aussi, j’ai mis environ une heure à la télécharger, puis j’ai tout traité en local
      Mais la plupart des gens ne l’utilisent toujours pas, parce qu’au final le scraping reste plus simple
    • À mon avis, il faut une réforme du droit d’auteur
      Je propose qu’après un certain délai, les données soient versées à un « dataset national », utilisable pour l’entraînement de l’IA, avec redistribution des revenus aux ayants droit
      Ainsi, les développeurs d’IA, les titulaires de droits et le public pourraient tous y gagner
    • Personnellement, je fais aussi un peu de petit scraping avec des scripts Tampermonkey
      J’utilise l’IA pour générer du code et collecter automatiquement des choses comme des listes de prix de VPS
      Avant, j’avais même récupéré tous les titres de lowendtalk pour en faire un dataset destiné à l’analyse par LLM
    • Créer un fichier standard comme /llms.txt, qui ne fournirait à un LLM que les données textuelles pures dont il a besoin, pourrait aussi être une solution
      On supprimerait les URL, adresses, numéros de téléphone, etc., en ne gardant qu’un balisage minimal comme <item> et <subitem>
      Cela dit, beaucoup de sites risquent simplement de publier des fichiers vides conformes à la forme
    • En réalité, ce n’est pas un problème technique, mais un problème de structure économique
      Les grands capitaux dégradent le Web pour des gains à court terme
      Mais je pense qu’au bout du compte, il y aura une adaptation et un nouvel équilibre
  • Aujourd’hui, le problème ne vient plus seulement des scrapers IA, mais aussi du scraping indirect via des demandes de résumé faites par les utilisateurs eux-mêmes
    Par exemple, Firefox propose des aperçus résumés sans même avoir besoin de cliquer sur le lien
    Image associée

    • Cette fonctionnalité génère les résumés localement avec le modèle SmolLM2-360M exécuté via llama.cpp (wllama)
      Au final, le navigateur va lui-même chercher la page et la résume, donc du point de vue du site, cela ressemble à la même requête
      Voir l’explication officielle de Mozilla
    • Le problème se décline en trois points
      1. le crawling non éthique des entreprises d’IA
      2. les demandes de résumé basées sur des agents de la part des utilisateurs
      3. le fait que ces agents soient plus inefficaces que les humains, tout en étant bien plus rapides
    • Mais si les utilisateurs s’en servent, ce n’est pas parce qu’ils ont été « dressés », c’est simplement parce que les LLM fonctionnent vraiment très bien
  • Aujourd’hui, les scrapers utilisent des pools d’IP résidentielles pour éviter la détection

    • Je me demande si les FAI qui fournissent ces pools d’IP n’ont pas inventé un nouveau modèle économique
    • En plus, il existe maintenant beaucoup de bots qui pilotent de vrais navigateurs, ce qui leur permet même de passer les CAPTCHA de Cloudflare
      Dans ces conditions, je ne sais pas combien de temps les mesures défensives resteront efficaces