- Ces derniers temps, les collectes de données non autorisées par des entreprises d’IA surchargeant les serveurs de MetaBrainz sont devenues un problème majeur
- Elles ignorent les règles de
robots.txt et explorent les données de MusicBrainz page par page, une méthode inefficace qui prendrait des centaines d’années
- Le même comportement s’est étendu à l’API ListenBrainz, entraînant des mesures de protection comme l’exigence d’un jeton d’authentification et la fermeture de certaines API
- LB Radio n’est désormais accessible qu’aux utilisateurs connectés, et les appels API nécessitent aussi un en-tête Authorization
- Ces mesures sont présentées comme une réponse indispensable pour préserver l’accès des utilisateurs légitimes
Problème de surcharge des serveurs causé par les scrapers IA
- L’équipe MetaBrainz fait face depuis plusieurs mois à des crawlings non autorisés destinés à collecter des données pour l’entraînement de modèles d’IA
- Certaines entreprises d’IA ignorent les règles élémentaires de savoir-vivre sur Internet comme
robots.txt pour aspirer les données
- Elles accèdent aux données de MusicBrainz en demandant chaque page individuellement, au lieu de télécharger l’ensemble, ce qui est plus inefficace et génère une forte charge serveur
- Cette approche atteint un niveau d’inefficacité tel qu’il faudrait des centaines d’années, et finit par empêcher l’accès des utilisateurs normaux
Mesures de protection de l’API ListenBrainz
- Des scrapers IA ont tenté de collecter des données sur plusieurs endpoints de l’API ListenBrainz
- En conséquence, les changements suivants ont été appliqués :
- L’API
/metadata/lookup (GET et POST) ne fonctionne plus sans jeton Authorization
- Les endpoints
mbid-mapping, mbid-mapping-release et mbid-mapping-explain de la ListenBrainz Labs API ont été supprimés
- Cette API était fournie à l’origine à des fins de débogage et sera remplacée plus tard par un endpoint pour un nouveau mapper
- LB Radio n’est disponible que pour les utilisateurs connectés, et les appels API exigent un en-tête Authorization
Réponse d’urgence pour garantir la stabilité du service
- MetaBrainz explique que ces mesures étaient inévitables pour éviter la surcharge du service et maintenir un fonctionnement normal
- L’équipe s’excuse pour ces changements sans préavis et prévoit d’améliorer les messages d’erreur une fois les projets de fin d’année terminés
Réactions de la communauté
- Dans les commentaires, la discussion a porté sur l’approche inefficace des scrapers IA et la structure des spiders web automatisés
- Certains utilisateurs ont dénoncé « l’incompétence des opérateurs de l’IA »
- D’autres ont expliqué que « les crawlers automatisés suivent simplement les liens pour collecter les données »
Portée générale
- Les mesures de MetaBrainz illustrent les dommages causés aux projets de données ouvertes par la collecte de données liée à l’IA
- Pour assurer la pérennité des API publiques, le renforcement de l’authentification et les restrictions d’accès deviennent inévitables
Aucun commentaire pour le moment.