Pourquoi il devient impossible de maintenir de bons services à cause des scrapers IA
(blog.metabrainz.org)- Ces derniers temps, les collectes de données non autorisées par des entreprises d’IA surchargeant les serveurs de MetaBrainz sont devenues un problème majeur
- Elles ignorent les règles de
robots.txtet explorent les données de MusicBrainz page par page, une méthode inefficace qui prendrait des centaines d’années - Le même comportement s’est étendu à l’API ListenBrainz, entraînant des mesures de protection comme l’exigence d’un jeton d’authentification et la fermeture de certaines API
- LB Radio n’est désormais accessible qu’aux utilisateurs connectés, et les appels API nécessitent aussi un en-tête Authorization
- Ces mesures sont présentées comme une réponse indispensable pour préserver l’accès des utilisateurs légitimes
Problème de surcharge des serveurs causé par les scrapers IA
- L’équipe MetaBrainz fait face depuis plusieurs mois à des crawlings non autorisés destinés à collecter des données pour l’entraînement de modèles d’IA
- Certaines entreprises d’IA ignorent les règles élémentaires de savoir-vivre sur Internet comme
robots.txtpour aspirer les données - Elles accèdent aux données de MusicBrainz en demandant chaque page individuellement, au lieu de télécharger l’ensemble, ce qui est plus inefficace et génère une forte charge serveur
- Certaines entreprises d’IA ignorent les règles élémentaires de savoir-vivre sur Internet comme
- Cette approche atteint un niveau d’inefficacité tel qu’il faudrait des centaines d’années, et finit par empêcher l’accès des utilisateurs normaux
Mesures de protection de l’API ListenBrainz
- Des scrapers IA ont tenté de collecter des données sur plusieurs endpoints de l’API ListenBrainz
- En conséquence, les changements suivants ont été appliqués :
- L’API
/metadata/lookup(GET et POST) ne fonctionne plus sans jeton Authorization - Les endpoints
mbid-mapping,mbid-mapping-releaseetmbid-mapping-explainde la ListenBrainz Labs API ont été supprimés- Cette API était fournie à l’origine à des fins de débogage et sera remplacée plus tard par un endpoint pour un nouveau mapper
- LB Radio n’est disponible que pour les utilisateurs connectés, et les appels API exigent un en-tête Authorization
- L’API
Réponse d’urgence pour garantir la stabilité du service
- MetaBrainz explique que ces mesures étaient inévitables pour éviter la surcharge du service et maintenir un fonctionnement normal
- L’équipe s’excuse pour ces changements sans préavis et prévoit d’améliorer les messages d’erreur une fois les projets de fin d’année terminés
Réactions de la communauté
- Dans les commentaires, la discussion a porté sur l’approche inefficace des scrapers IA et la structure des spiders web automatisés
- Certains utilisateurs ont dénoncé « l’incompétence des opérateurs de l’IA »
- D’autres ont expliqué que « les crawlers automatisés suivent simplement les liens pour collecter les données »
Portée générale
- Les mesures de MetaBrainz illustrent les dommages causés aux projets de données ouvertes par la collecte de données liée à l’IA
- Pour assurer la pérennité des API publiques, le renforcement de l’authentification et les restrictions d’accès deviennent inévitables
1 commentaires
Commentaires Hacker News
MetaBrainz est vraiment une excellente base de données d’intérêt public
J’avais déjà écrit un billet sur ce sujet sur le blog de l’EFF
Que des bots d’IA récupèrent des données publiques comme celles de MetaBrainz ne me dérange pas, mais le problème, c’est qu’ils le font de manière inefficace
Au fond, c’est un problème d’échec de coordination. MetaBrainz part du principe que les bots sont de bonne foi, tandis que les bots supposent que le site cache les données
Même quand on leur dit « arrêtez de marteler l’API et récupérez plutôt ce fichier tar gzippé en une fois », ils n’y croient pas
À la limite, le proposer sous forme de torrent pourrait mieux inciter les bots à partager les données
Il était public depuis 2016, mais la consommation de ressources est devenue trop importante, donc il est désormais réservé aux soutiens
C’est un projet hobby à 60 dollars par mois, donc c’est difficile à maintenir. Si le soutien augmente plus tard, je pourrai peut-être le rouvrir en y ajoutant une solution de défense contre les bots
Mais j’ai été surpris de voir que je n’étais pas le seul à subir ce problème. On dirait qu’au final, Internet se referme de plus en plus
robots.txt, d’indiquer « récupérez plutôt le fichier tar ici »Je ne sais pas si le standard prévoit ce genre de fonctionnalité
À une époque, moi aussi j’avais gonflé mon ratio d’upload pour éviter d’être banni d’un tracker privé
Ignorer la volonté des propriétaires de sites est une mauvaise approche
Ce n’est pas une vraie IA qui lit les pages et prend des décisions, juste du code automatisé qui suit les liens et aspire les documents
L’IA est en train de détruire le libre écosystème du Web
Mon hébergeur a soudain suspendu mon compte à cause d’une explosion du trafic de bots
J’ai fini par migrer vers un nouvel hébergeur, mais pour les gens qui gèrent un site seuls, il n’y a aucun espoir dans ce genre de situation
Les entreprises d’IA ont des ressources infinies et ne se soucient pas des dégâts causés
Si on veut être cynique, c’est peut-être même une stratégie délibérée — faire disparaître les sites gratuits pour que les gens finissent par n’obtenir l’information qu’à travers des modèles d’IA
L’économie du partage d’information est en train de s’effondrer
Au final, une poignée d’entreprises accaparera toute la valeur, puis l’enshittification commencera
Je gère le site de la PTA de l’école de mon enfant, et un bot d’OpenAI a aspiré aléatoirement le calendrier des événements
Les requêtes allaient de l’an 1000 à l’an 3000
Une fois le User-Agent bloqué, cela ne s’est arrêté qu’environ 4 heures plus tard
J’exploite un site web statique et une instance cgit sur un VPS e2-micro de Google Cloud
En 160 jours, j’ai reçu plus de 8,5 millions de requêtes venant d’OpenAI et de Claude
J’ai donc configuré lighttpd pour renvoyer 403 quand le User-Agent contient « claude|openai », et j’ai mis en place une limitation de débit avec nftables
Le vrai problème, c’est le botnet utilisant des proxys résidentiels. Il se fait passer pour un navigateur classique
Je me demande si Microsoft le bloque, ou si mon blog est simplement trop peu intéressant pour les bots
Cloudflare propose désormais un service de détection des scrapers IA
Il redirige les bots détectés vers des pages générées par IA en boucle infinie
Au final, cela revient à laisser un tiers décider qui a le droit d’accéder à mon contenu, et ça me gêne
J’ai moi-même eu beaucoup de frustrations et je l’ai finalement retiré
L’équipe de SQLite a connu un problème similaire
Son créateur Richard Hipp a dénoncé ce « comportement égoïste », en disant qu’« il suffirait de cloner tout le dépôt, au lieu de scraper en gênant tout le monde »
Voir le message de forum correspondant
Avec le temps, je me dis de plus en plus qu’il faudrait regrouper tout le crawling via des canaux communs comme Common Crawl
Il faut réduire la charge sur les serveurs tout en préservant l’ouverture du Web et la possibilité de le scraper
On pourrait par exemple standardiser cela en plaçant, sous le chemin
/well-known/, des liens vers des dumps de données horodatésMoi aussi, j’ai mis environ une heure à la télécharger, puis j’ai tout traité en local
Mais la plupart des gens ne l’utilisent toujours pas, parce qu’au final le scraping reste plus simple
Je propose qu’après un certain délai, les données soient versées à un « dataset national », utilisable pour l’entraînement de l’IA, avec redistribution des revenus aux ayants droit
Ainsi, les développeurs d’IA, les titulaires de droits et le public pourraient tous y gagner
J’utilise l’IA pour générer du code et collecter automatiquement des choses comme des listes de prix de VPS
Avant, j’avais même récupéré tous les titres de lowendtalk pour en faire un dataset destiné à l’analyse par LLM
/llms.txt, qui ne fournirait à un LLM que les données textuelles pures dont il a besoin, pourrait aussi être une solutionOn supprimerait les URL, adresses, numéros de téléphone, etc., en ne gardant qu’un balisage minimal comme
<item>et<subitem>Cela dit, beaucoup de sites risquent simplement de publier des fichiers vides conformes à la forme
Les grands capitaux dégradent le Web pour des gains à court terme
Mais je pense qu’au bout du compte, il y aura une adaptation et un nouvel équilibre
Aujourd’hui, le problème ne vient plus seulement des scrapers IA, mais aussi du scraping indirect via des demandes de résumé faites par les utilisateurs eux-mêmes
Par exemple, Firefox propose des aperçus résumés sans même avoir besoin de cliquer sur le lien
Image associée
Au final, le navigateur va lui-même chercher la page et la résume, donc du point de vue du site, cela ressemble à la même requête
Voir l’explication officielle de Mozilla
Aujourd’hui, les scrapers utilisent des pools d’IP résidentielles pour éviter la détection
Dans ces conditions, je ne sais pas combien de temps les mesures défensives resteront efficaces