1 points par GN⁺ 2026-01-14 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Ces derniers temps, les collectes de données non autorisées par des entreprises d’IA surchargeant les serveurs de MetaBrainz sont devenues un problème majeur
  • Elles ignorent les règles de robots.txt et explorent les données de MusicBrainz page par page, une méthode inefficace qui prendrait des centaines d’années
  • Le même comportement s’est étendu à l’API ListenBrainz, entraînant des mesures de protection comme l’exigence d’un jeton d’authentification et la fermeture de certaines API
  • LB Radio n’est désormais accessible qu’aux utilisateurs connectés, et les appels API nécessitent aussi un en-tête Authorization
  • Ces mesures sont présentées comme une réponse indispensable pour préserver l’accès des utilisateurs légitimes

Problème de surcharge des serveurs causé par les scrapers IA

  • L’équipe MetaBrainz fait face depuis plusieurs mois à des crawlings non autorisés destinés à collecter des données pour l’entraînement de modèles d’IA
    • Certaines entreprises d’IA ignorent les règles élémentaires de savoir-vivre sur Internet comme robots.txt pour aspirer les données
    • Elles accèdent aux données de MusicBrainz en demandant chaque page individuellement, au lieu de télécharger l’ensemble, ce qui est plus inefficace et génère une forte charge serveur
  • Cette approche atteint un niveau d’inefficacité tel qu’il faudrait des centaines d’années, et finit par empêcher l’accès des utilisateurs normaux

Mesures de protection de l’API ListenBrainz

  • Des scrapers IA ont tenté de collecter des données sur plusieurs endpoints de l’API ListenBrainz
  • En conséquence, les changements suivants ont été appliqués :
    • L’API /metadata/lookup (GET et POST) ne fonctionne plus sans jeton Authorization
    • Les endpoints mbid-mapping, mbid-mapping-release et mbid-mapping-explain de la ListenBrainz Labs API ont été supprimés
      • Cette API était fournie à l’origine à des fins de débogage et sera remplacée plus tard par un endpoint pour un nouveau mapper
    • LB Radio n’est disponible que pour les utilisateurs connectés, et les appels API exigent un en-tête Authorization

Réponse d’urgence pour garantir la stabilité du service

  • MetaBrainz explique que ces mesures étaient inévitables pour éviter la surcharge du service et maintenir un fonctionnement normal
  • L’équipe s’excuse pour ces changements sans préavis et prévoit d’améliorer les messages d’erreur une fois les projets de fin d’année terminés

Réactions de la communauté

  • Dans les commentaires, la discussion a porté sur l’approche inefficace des scrapers IA et la structure des spiders web automatisés
    • Certains utilisateurs ont dénoncé « l’incompétence des opérateurs de l’IA »
    • D’autres ont expliqué que « les crawlers automatisés suivent simplement les liens pour collecter les données »

Portée générale

  • Les mesures de MetaBrainz illustrent les dommages causés aux projets de données ouvertes par la collecte de données liée à l’IA
  • Pour assurer la pérennité des API publiques, le renforcement de l’authentification et les restrictions d’accès deviennent inévitables

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.