29 points par GN⁺ 2025-12-21 | 7 commentaires | Partager sur WhatsApp
  • Anna’s Archive a sauvegardé l’intégralité des métadonnées et des fichiers musicaux de Spotify et les a publiés sous la forme d’une archive torrent d’environ 300 To
  • L’ensemble comprend les métadonnées de 256 millions de morceaux et 86 millions de fichiers musicaux, couvrant 99,6 % des écoutes
  • Les morceaux populaires sont conservés dans leur qualité d’origine en OGG Vorbis 160kbit/s, tandis que les morceaux moins populaires sont stockés en OGG Opus 75kbit/s, pour une préservation plus efficace
  • Les données sont fournies sous forme de bases de données SQLite et incluent une structure détaillée comprenant playlists, audio features et pochettes d’album
  • Il s’agit de la première archive de préservation musicale totalement ouverte au monde, conçue pour préserver durablement le patrimoine musical de l’humanité face aux catastrophes naturelles, aux guerres ou aux coupes budgétaires

Vue d’ensemble du projet

  • Anna’s Archive a sauvegardé Spotify en scrapant à grande échelle l’ensemble des métadonnées et fichiers musicaux
    • Volume total d’environ 300 To, distribués sous forme de torrents regroupés par popularité
    • Comprend 256 millions de morceaux et 186 millions de codes ISRC uniques
  • Cette archive est un dépôt de préservation musicale entièrement ouvert et duplicable par n’importe qui, incluant 86 millions de fichiers musicaux
    • Cela représente environ 99,6 % de l’écoute totale sur Spotify
  • Anna’s Archive s’était jusqu’ici surtout concentrée sur la préservation de contenus textuels (livres, articles scientifiques, etc.), mais étend désormais son champ à la musique en tant que média non textuel
  • Après avoir découvert une méthode de scraping structurée de Spotify, le projet a lancé la création d’une archive centrée sur la préservation musicale

Limites de la préservation musicale existante

  • Les tentatives existantes de préservation musicale présentent trois grands problèmes
    1. Une focalisation biaisée sur les artistes populaires, qui laisse de côté les musiques de niche
    2. Une obsession pour l’audio sans perte, entraînant une utilisation inefficace de l’espace de stockage
    3. L’absence d’une liste de torrents représentant l’ensemble de la musique
    Publicité
  • Cette sauvegarde de Spotify cherche à corriger ces limites pour construire une archive musicale pensée pour la préservation

Composition des données et statistiques

  • Récupération des métadonnées de 99,9 % des quelque 256 millions de morceaux de Spotify
  • Priorisation selon l’indicateur de popularité (popularity)
    • Les morceaux avec popularity>0 sont stockés dans leur qualité d’origine en OGG Vorbis 160kbit/s
    • Les morceaux avec popularity=0 sont réencodés en OGG Opus 75kbit/s
  • La plupart des morceaux sortis avant juillet 2025 sont inclus
  • Le total des streams des 3 morceaux les plus écoutés (Lady Gaga, Billie Eilish, Bad Bunny) est supérieur à celui cumulé des 20 à 100 millions de morceaux les moins écoutés
  • Plus de 70 % de l’ensemble du catalogue correspond à des morceaux peu populaires, avec moins de 1 000 écoutes

Structure de distribution par torrent

  • Les données sont réparties en deux parties : métadonnées et fichiers musicaux
    • Métadonnées : fournies en SQLite DB, environ 200 Go (compressés)
    • Données d’analyse audio : 4 To (compressés)
  • Les fichiers musicaux sont distribués au format Anna’s Archive Containers (AAC)
    • Après suppression des paquets OGG incorrects de Spotify, des métadonnées comme le titre, l’ISRC, la pochette d’album et les informations ReplayGain sont insérées
    • Certains fichiers contiennent une erreur sur la balise REPLAYGAIN_ALBUM_PEAK
    Publicité

Exploration et analyse des données

  • Distribution de la popularité : l’essentiel des écoutes se concentre sur les morceaux dans la plage popularity 50~80
  • Durée des morceaux : des pics apparaissent autour de 2, 3 et 4 minutes
  • Statistiques incluses sur les contenus Explicit et les morceaux avec doublons d’ISRC
  • Répartition des genres d’artistes : visualisations fournies par genre détaillé et par genre regroupé
  • Analyse des années de sortie des albums : forte hausse récente des musiques générées automatiquement ou par IA
  • Analyse des audio features : BPM moyen d’environ 120, avec confirmation d’une corrélation entre loudness et energy

Structure détaillée des métadonnées

  • Principaux fichiers SQLite
    • spotify_clean.sqlite3 : réplique quasi complète de l’API pour les artistes, albums et morceaux
    • spotify_clean_audio_features.sqlite3 : stocke pour chaque morceau des audio features comme le BPM, la tonalité, l’energy ou la valence
    • spotify_clean_playlists.sqlite3 : comprend 6,6 millions de playlists et 1,7 milliard d’entrées de morceaux
    • spotify_clean_track_files.sqlite3 : fait la correspondance entre les morceaux et les fichiers réels, avec état du fichier, hash SHA256 et informations sur le donneur de licence
  • Des fichiers JSONL supplémentaires incluent des données sur les livres audio, podcasts, émissions et épisodes
  • spotify_2025_07_coverart.tar.torrent contient les images des pochettes d’album
Publicité

Participation et appel à la préservation

  • Anna’s Archive appelle aux dons et à la participation au seeding des torrents
    • Même un seeding modeste peut contribuer à la préservation de l’ensemble
  • L’objectif est de préserver durablement le patrimoine musical de l’humanité face aux catastrophes naturelles, aux guerres ou aux coupes budgétaires

Fonctionnalités supplémentaires et expérimentations

  • Possibilité d’implémenter une fonction « True Shuffle » sur l’ensemble des morceaux de Spotify
    • Une requête SQLite permettrait de générer une véritable playlist aléatoire
  • Si l’intérêt est suffisant à l’avenir, le projet évoque la possibilité d’ajouter une fonction de téléchargement de fichiers individuels

Résumé

  • Anna’s Archive a sauvegardé la quasi-totalité des données de Spotify pour constituer la plus grande base de métadonnées musicales ouverte au monde
  • En tant qu’archive de préservation entièrement ouverte, elle peut être dupliquée par n’importe qui
  • Le projet réunit transparence de la structure des données, précision technique et pérennité de la conservation
  • Au-delà de la dépendance de l’industrie musicale aux plateformes commerciales, il pose les bases d’une préservation permanente des archives culturelles

7 commentaires

 
tested 2025-12-24

Spotify va peut-être se fâcher

 
lsdcnu 2026-01-25

https://fr.news.hada.io/topic?id=26059
D’après les dernières actualités, il semblerait qu’ils aient été poursuivis en justice.

 
vndk2234 2025-12-23

Quelque part entre le justicier et le hors-la-loi...

 
roxie 2025-12-21

Les droits d’auteur, ...

 
devworld 2025-12-21

On peut désormais imaginer que des modèles de génération musicale, jusqu’ici cantonnés à des offres commerciales comme Suno, puissent aussi être entraînés en open-weight et open source.

 
daumkakao 2025-12-21

C’est énorme 😳😳😳😳

 
GN⁺ 2025-12-21
Réactions sur Hacker News
  • C’est vraiment incroyable
    Je ne savais pas que le DRM de Spotify avait été contourné au point de permettre des téléchargements à une telle échelle
    Ça ne semble pas avoir une grande utilité pour l’utilisateur lambda, mais pour les chercheurs travaillant sur la classification ou la génération musicale, ça pourrait être une opportunité énorme
    Cela dit, il sera sans doute difficile de rendre public le dataset utilisé pour l’entraînement
    Je me demande si cela a été fait à la demande de chercheurs en IA, ou simplement dans un but de préservation

    • Je ne suis pas d’accord sur le fait que ça soit inutile pour le grand public
      Il existe déjà des appareils ou des applis largement diffusés qui trouvent automatiquement des flux illégaux de séries et de films
      Techniquement, c’est tout à fait faisable, et même des non-spécialistes dans ma famille utilisent ce genre de choses
      Cela dit, l’équipe d’Anna’s Archive est un groupe animé par des motivations idéologiques, donc ce n’est pas pour les entreprises d’IA
    • Je n’utilise pas Spotify
      Quand j’avais besoin de musique, je la récupérais sur YouTube avec ytldp, mais je le fais maintenant beaucoup moins
      J’utilise davantage YouTube pour les infos ou en fond sonore que pour la musique
      C’est un peu triste que Google contrôle tout ça
    • En réalité, les métadonnées ont peut-être plus de valeur que les fichiers musicaux eux-mêmes
    • Dire que c’est « pour les chercheurs en classification musicale », ça ressemble à une rationalisation pour ne pas avoir à soutenir les artistes
      La vraie direction, c’est de réguler des entreprises comme Spotify pour garantir une rémunération juste des musiciens
      Ce genre de publication de données ne fait qu’encourager la production de déchets IA
    • Ce type de matériel devrait faciliter la création, piste par piste, d’outils de collecte musicale automatisée comme Lidarr
  • Vu l’échelle, c’est absolument gigantesque
    L’ancien What.CD était surnommé « la bibliothèque d’Alexandrie de la musique », et même à l’époque on parlait seulement de quelques millions de torrents
    Or le rip Spotify d’Anna contient 186 millions d’enregistrements uniques
    Bien sûr, il y aura aussi vers la fin des choses comme de la musique de bots, mais l’ampleur reste écrasante

    • Ce qui rendait What.CD exceptionnel, ce n’était pas seulement la quantité, mais la rareté et la qualité
      On y trouvait aussi bien les premiers EP de groupes locaux que des disques rares impossibles à mettre en streaming à cause de situations de droits floues
      Le plaisir de la découverte créé par les recommandations de la communauté, les critiques et les playlists artisanales ne peut pas être remplacé par un algorithme
      C’est comme ça que j’ai découvert beaucoup d’artistes que j’aime encore aujourd’hui
    • Avant What.CD, il y avait OiNK’s Pink Palace
      C’était une communauté mue par un pur amour de la musique, et Trent Reznor en avait parlé très positivement en public
      C’est dommage que ce type de communauté musicale authentique ait disparu aujourd’hui
    • Oui, What.CD contenait beaucoup de musique absente de Spotify, sur CD, bootlegs, cassettes, etc.
      Spotify est limité aux morceaux pour lesquels il existe une licence de streaming
    • Moi aussi, j’écoute souvent des morceaux de niche sur YouTube Music, et il y a beaucoup de commentaires du genre « dommage que ce ne soit pas sur Spotify »
      Il reste encore du chemin avant d’avoir une archive musicale vraiment complète
    • What.CD comptait les torrents par album, alors que Spotify inclut aussi des podcasts et des contenus générés par IA
  • Je pense qu’un projet comme celui-ci est absolument nécessaire
    Un site comme Anna’s Archive est aussi important que Internet Archive
    L’enjeu central, c’est la préservation du patrimoine numérique : sites web, jeux, livres, etc.
    Avec le renouvellement des générations, beaucoup de gens n’auront jamais l’occasion de connaître la créativité du web d’autrefois
    Je pense que notre génération est celle qui a encore la possibilité de préserver tout cela

  • À une époque où musique et films disparaissent peu à peu des plateformes, ce travail de préservation est vraiment essentiel
    J’ai moi-même trois playlists grisées — même les titres ont disparu, donc je ne sais plus ce que j’écoutais
    Du coup, j’achète en CD la musique que je veux garder pour toujours, et pour la musique dance, je laisse filer

  • C’est un travail vraiment important
    Il suffit de regarder des articles d’il y a 10 ans : la plupart des liens externes sont devenus des 404
    On peut se demander s’il faut tout conserver, mais si c’est possible, il faut le faire

  • Impressionnant
    Le simple fait qu’ils aient scrapé Spotify à grande échelle est fascinant
    Ils ne révéleront sans doute pas les détails, mais ça serait passionnant à lire

    • En fait, ce n’est pas si difficile
      Il vaut simplement mieux ne pas en abuser et garder ça au niveau du projet hobby
      Mon serveur musical lit aussi des pistes Spotify de cette façon
      Lien vers le code
    • Ce qui est encore plus impressionnant, c’est d’avoir transféré anonymement 300 To de données
    • Ils ont probablement utilisé un outil comme celui-ci → spotizerr-spotify
  • Personnellement, ça ne me plaît pas vraiment
    Il existe déjà des sources de meilleure qualité audio, et ce genre de rip massif ne fait qu’augmenter les risques juridiques
    J’ai surtout peur que cela finisse par mettre en danger jusqu’aux bibliothèques d’e-books
    Leur annonce disait aussi que « la musique est déjà suffisamment préservée », donc ce projet aurait dû être séparé

  • Un fournisseur d’accès allemand (SIM.de/Drillisch) bloquait Anna’s Archive
    Quand je coupe le VPN, le site ne s’ouvre pas, et il faut activer Mullvad VPN pour y accéder
    Je ne savais pas qu’il y avait ce niveau de censure en Allemagne

    • J’ai vécu quelque chose de similaire
      Si on cherche alextud popcorntime, le résultat PopcornTimeTV GitHub n’apparaît pas
      C’est pareil sur Google, Kagi, DuckDuckGo et Bing
      Les forks apparaissent, mais pas l’original, ce qui fait soupçonner un filtrage des résultats de recherche
  • Il y a déjà eu par le passé des musiques supprimées simultanément de plusieurs plateformes
    Je me demande si on pourra les retrouver via ce genre d’archive
    Aujourd’hui, des médias perdus version moderne naissent pratiquement chaque jour
    Certains éditeurs essaient délibérément d’éliminer toutes les copies, et je trouve ça mentalement terrifiant
    Détruire complètement une œuvre ne peut être justifié sous aucun prétexte
    Si elle ne survit que sur une bande enfermée dans un coffre en acier, alors elle n’existe pratiquement plus

  • Techniquement, il serait aussi possible de créer un serveur de streaming reposant sur des torrents en backend
    Le principe serait de ne télécharger que les parties nécessaires au moment de la demande

    • Spotify utilisait aussi le streaming P2P jusqu’en 2014
      Lien vers l’article scientifique
    • J’ai moi aussi monté récemment une *stack arr dans mon homelab, mais je ne vois pas encore l’intérêt de la musique par rapport au prix
      Spotify reste encore peu cher, donc je ne m’en préoccupe pas trop, mais le problème de rémunération des artistes demeure
      J’espère qu’un jour on pourra facilement déployer un serveur musical auto-hébergé basé sur les torrents
    • Techniquement, il ne faudrait pas le faire, mais c’est possible
    • En quelque sorte, une approche à la Popcorn Time