Publication de la sauvegarde complète de Spotify

(annas-archive.li)

29 points par GN⁺ 2025-12-21 | 7 commentaires | Partager sur WhatsApp

Anna’s Archive a sauvegardé l’intégralité des métadonnées et des fichiers musicaux de Spotify et les a publiés sous la forme d’une archive torrent d’environ 300 To
L’ensemble comprend les métadonnées de 256 millions de morceaux et 86 millions de fichiers musicaux, couvrant 99,6 % des écoutes
Les morceaux populaires sont conservés dans leur qualité d’origine en OGG Vorbis 160kbit/s, tandis que les morceaux moins populaires sont stockés en OGG Opus 75kbit/s, pour une préservation plus efficace
Les données sont fournies sous forme de bases de données SQLite et incluent une structure détaillée comprenant playlists, audio features et pochettes d’album
Il s’agit de la première archive de préservation musicale totalement ouverte au monde, conçue pour préserver durablement le patrimoine musical de l’humanité face aux catastrophes naturelles, aux guerres ou aux coupes budgétaires

Vue d’ensemble du projet

Anna’s Archive a sauvegardé Spotify en scrapant à grande échelle l’ensemble des métadonnées et fichiers musicaux
- Volume total d’environ 300 To, distribués sous forme de torrents regroupés par popularité
- Comprend 256 millions de morceaux et 186 millions de codes ISRC uniques
Cette archive est un dépôt de préservation musicale entièrement ouvert et duplicable par n’importe qui, incluant 86 millions de fichiers musicaux
- Cela représente environ 99,6 % de l’écoute totale sur Spotify
Anna’s Archive s’était jusqu’ici surtout concentrée sur la préservation de contenus textuels (livres, articles scientifiques, etc.), mais étend désormais son champ à la musique en tant que média non textuel
Après avoir découvert une méthode de scraping structurée de Spotify, le projet a lancé la création d’une archive centrée sur la préservation musicale

Limites de la préservation musicale existante

Les tentatives existantes de préservation musicale présentent trois grands problèmes
1. Une focalisation biaisée sur les artistes populaires, qui laisse de côté les musiques de niche
2. Une obsession pour l’audio sans perte, entraînant une utilisation inefficace de l’espace de stockage
3. L’absence d’une liste de torrents représentant l’ensemble de la musique
Cette sauvegarde de Spotify cherche à corriger ces limites pour construire une archive musicale pensée pour la préservation

Composition des données et statistiques

Récupération des métadonnées de 99,9 % des quelque 256 millions de morceaux de Spotify
Priorisation selon l’indicateur de popularité (popularity)
- Les morceaux avec popularity>0 sont stockés dans leur qualité d’origine en OGG Vorbis 160kbit/s
- Les morceaux avec popularity=0 sont réencodés en OGG Opus 75kbit/s
La plupart des morceaux sortis avant juillet 2025 sont inclus
Le total des streams des 3 morceaux les plus écoutés (Lady Gaga, Billie Eilish, Bad Bunny) est supérieur à celui cumulé des 20 à 100 millions de morceaux les moins écoutés
Plus de 70 % de l’ensemble du catalogue correspond à des morceaux peu populaires, avec moins de 1 000 écoutes

Structure de distribution par torrent

Les données sont réparties en deux parties : métadonnées et fichiers musicaux
- Métadonnées : fournies en SQLite DB, environ 200 Go (compressés)
- Données d’analyse audio : 4 To (compressés)
Les fichiers musicaux sont distribués au format Anna’s Archive Containers (AAC)
- Après suppression des paquets OGG incorrects de Spotify, des métadonnées comme le titre, l’ISRC, la pochette d’album et les informations ReplayGain sont insérées
- Certains fichiers contiennent une erreur sur la balise REPLAYGAIN_ALBUM_PEAK

Exploration et analyse des données

Distribution de la popularité : l’essentiel des écoutes se concentre sur les morceaux dans la plage popularity 50~80
Durée des morceaux : des pics apparaissent autour de 2, 3 et 4 minutes
Statistiques incluses sur les contenus Explicit et les morceaux avec doublons d’ISRC
Répartition des genres d’artistes : visualisations fournies par genre détaillé et par genre regroupé
Analyse des années de sortie des albums : forte hausse récente des musiques générées automatiquement ou par IA
Analyse des audio features : BPM moyen d’environ 120, avec confirmation d’une corrélation entre loudness et energy

Structure détaillée des métadonnées

Principaux fichiers SQLite
- spotify_clean.sqlite3 : réplique quasi complète de l’API pour les artistes, albums et morceaux
- spotify_clean_audio_features.sqlite3 : stocke pour chaque morceau des audio features comme le BPM, la tonalité, l’energy ou la valence
- spotify_clean_playlists.sqlite3 : comprend 6,6 millions de playlists et 1,7 milliard d’entrées de morceaux
- spotify_clean_track_files.sqlite3 : fait la correspondance entre les morceaux et les fichiers réels, avec état du fichier, hash SHA256 et informations sur le donneur de licence
Des fichiers JSONL supplémentaires incluent des données sur les livres audio, podcasts, émissions et épisodes
spotify_2025_07_coverart.tar.torrent contient les images des pochettes d’album

Participation et appel à la préservation

Anna’s Archive appelle aux dons et à la participation au seeding des torrents
- Même un seeding modeste peut contribuer à la préservation de l’ensemble
L’objectif est de préserver durablement le patrimoine musical de l’humanité face aux catastrophes naturelles, aux guerres ou aux coupes budgétaires

Fonctionnalités supplémentaires et expérimentations

Possibilité d’implémenter une fonction « True Shuffle » sur l’ensemble des morceaux de Spotify
- Une requête SQLite permettrait de générer une véritable playlist aléatoire
Si l’intérêt est suffisant à l’avenir, le projet évoque la possibilité d’ajouter une fonction de téléchargement de fichiers individuels

Résumé

Anna’s Archive a sauvegardé la quasi-totalité des données de Spotify pour constituer la plus grande base de métadonnées musicales ouverte au monde
En tant qu’archive de préservation entièrement ouverte, elle peut être dupliquée par n’importe qui
Le projet réunit transparence de la structure des données, précision technique et pérennité de la conservation
Au-delà de la dépendance de l’industrie musicale aux plateformes commerciales, il pose les bases d’une préservation permanente des archives culturelles

7 commentaires

tested 2025-12-24

Spotify va peut-être se fâcher

lsdcnu 2026-01-25

https://fr.news.hada.io/topic?id=26059
D’après les dernières actualités, il semblerait qu’ils aient été poursuivis en justice.

vndk2234 2025-12-23

Quelque part entre le justicier et le hors-la-loi...

roxie 2025-12-21

Les droits d’auteur, ...

devworld 2025-12-21

On peut désormais imaginer que des modèles de génération musicale, jusqu’ici cantonnés à des offres commerciales comme Suno, puissent aussi être entraînés en open-weight et open source.

daumkakao 2025-12-21

C’est énorme 😳😳😳😳

GN⁺ 2025-12-21

Réactions sur Hacker News

C’est vraiment incroyable
Je ne savais pas que le DRM de Spotify avait été contourné au point de permettre des téléchargements à une telle échelle
Ça ne semble pas avoir une grande utilité pour l’utilisateur lambda, mais pour les chercheurs travaillant sur la classification ou la génération musicale, ça pourrait être une opportunité énorme
Cela dit, il sera sans doute difficile de rendre public le dataset utilisé pour l’entraînement
Je me demande si cela a été fait à la demande de chercheurs en IA, ou simplement dans un but de préservation
- Je ne suis pas d’accord sur le fait que ça soit inutile pour le grand public
  Il existe déjà des appareils ou des applis largement diffusés qui trouvent automatiquement des flux illégaux de séries et de films
  Techniquement, c’est tout à fait faisable, et même des non-spécialistes dans ma famille utilisent ce genre de choses
  Cela dit, l’équipe d’Anna’s Archive est un groupe animé par des motivations idéologiques, donc ce n’est pas pour les entreprises d’IA
- Je n’utilise pas Spotify
  Quand j’avais besoin de musique, je la récupérais sur YouTube avec ytldp, mais je le fais maintenant beaucoup moins
  J’utilise davantage YouTube pour les infos ou en fond sonore que pour la musique
  C’est un peu triste que Google contrôle tout ça
- En réalité, les métadonnées ont peut-être plus de valeur que les fichiers musicaux eux-mêmes
- Dire que c’est « pour les chercheurs en classification musicale », ça ressemble à une rationalisation pour ne pas avoir à soutenir les artistes
  La vraie direction, c’est de réguler des entreprises comme Spotify pour garantir une rémunération juste des musiciens
  Ce genre de publication de données ne fait qu’encourager la production de déchets IA
- Ce type de matériel devrait faciliter la création, piste par piste, d’outils de collecte musicale automatisée comme Lidarr
Vu l’échelle, c’est absolument gigantesque
L’ancien What.CD était surnommé « la bibliothèque d’Alexandrie de la musique », et même à l’époque on parlait seulement de quelques millions de torrents
Or le rip Spotify d’Anna contient 186 millions d’enregistrements uniques
Bien sûr, il y aura aussi vers la fin des choses comme de la musique de bots, mais l’ampleur reste écrasante
- Ce qui rendait What.CD exceptionnel, ce n’était pas seulement la quantité, mais la rareté et la qualité
  On y trouvait aussi bien les premiers EP de groupes locaux que des disques rares impossibles à mettre en streaming à cause de situations de droits floues
  Le plaisir de la découverte créé par les recommandations de la communauté, les critiques et les playlists artisanales ne peut pas être remplacé par un algorithme
  C’est comme ça que j’ai découvert beaucoup d’artistes que j’aime encore aujourd’hui
- Avant What.CD, il y avait OiNK’s Pink Palace
  C’était une communauté mue par un pur amour de la musique, et Trent Reznor en avait parlé très positivement en public
  C’est dommage que ce type de communauté musicale authentique ait disparu aujourd’hui
- Oui, What.CD contenait beaucoup de musique absente de Spotify, sur CD, bootlegs, cassettes, etc.
  Spotify est limité aux morceaux pour lesquels il existe une licence de streaming
- Moi aussi, j’écoute souvent des morceaux de niche sur YouTube Music, et il y a beaucoup de commentaires du genre « dommage que ce ne soit pas sur Spotify »
  Il reste encore du chemin avant d’avoir une archive musicale vraiment complète
- What.CD comptait les torrents par album, alors que Spotify inclut aussi des podcasts et des contenus générés par IA
Je pense qu’un projet comme celui-ci est absolument nécessaire
Un site comme Anna’s Archive est aussi important que Internet Archive
L’enjeu central, c’est la préservation du patrimoine numérique : sites web, jeux, livres, etc.
Avec le renouvellement des générations, beaucoup de gens n’auront jamais l’occasion de connaître la créativité du web d’autrefois
Je pense que notre génération est celle qui a encore la possibilité de préserver tout cela
À une époque où musique et films disparaissent peu à peu des plateformes, ce travail de préservation est vraiment essentiel
J’ai moi-même trois playlists grisées — même les titres ont disparu, donc je ne sais plus ce que j’écoutais
Du coup, j’achète en CD la musique que je veux garder pour toujours, et pour la musique dance, je laisse filer
C’est un travail vraiment important
Il suffit de regarder des articles d’il y a 10 ans : la plupart des liens externes sont devenus des 404
On peut se demander s’il faut tout conserver, mais si c’est possible, il faut le faire
Impressionnant
Le simple fait qu’ils aient scrapé Spotify à grande échelle est fascinant
Ils ne révéleront sans doute pas les détails, mais ça serait passionnant à lire
- En fait, ce n’est pas si difficile
  Il vaut simplement mieux ne pas en abuser et garder ça au niveau du projet hobby
  Mon serveur musical lit aussi des pistes Spotify de cette façon
  Lien vers le code
- Ce qui est encore plus impressionnant, c’est d’avoir transféré anonymement 300 To de données
- Ils ont probablement utilisé un outil comme celui-ci → spotizerr-spotify
Personnellement, ça ne me plaît pas vraiment
Il existe déjà des sources de meilleure qualité audio, et ce genre de rip massif ne fait qu’augmenter les risques juridiques
J’ai surtout peur que cela finisse par mettre en danger jusqu’aux bibliothèques d’e-books
Leur annonce disait aussi que « la musique est déjà suffisamment préservée », donc ce projet aurait dû être séparé
Un fournisseur d’accès allemand (SIM.de/Drillisch) bloquait Anna’s Archive
Quand je coupe le VPN, le site ne s’ouvre pas, et il faut activer Mullvad VPN pour y accéder
Je ne savais pas qu’il y avait ce niveau de censure en Allemagne
- J’ai vécu quelque chose de similaire
  Si on cherche alextud popcorntime, le résultat PopcornTimeTV GitHub n’apparaît pas
  C’est pareil sur Google, Kagi, DuckDuckGo et Bing
  Les forks apparaissent, mais pas l’original, ce qui fait soupçonner un filtrage des résultats de recherche
Il y a déjà eu par le passé des musiques supprimées simultanément de plusieurs plateformes
Je me demande si on pourra les retrouver via ce genre d’archive
Aujourd’hui, des médias perdus version moderne naissent pratiquement chaque jour
Certains éditeurs essaient délibérément d’éliminer toutes les copies, et je trouve ça mentalement terrifiant
Détruire complètement une œuvre ne peut être justifié sous aucun prétexte
Si elle ne survit que sur une bande enfermée dans un coffre en acier, alors elle n’existe pratiquement plus
Techniquement, il serait aussi possible de créer un serveur de streaming reposant sur des torrents en backend
Le principe serait de ne télécharger que les parties nécessaires au moment de la demande
- Spotify utilisait aussi le streaming P2P jusqu’en 2014
  Lien vers l’article scientifique
- J’ai moi aussi monté récemment une *stack arr dans mon homelab, mais je ne vois pas encore l’intérêt de la musique par rapport au prix
  Spotify reste encore peu cher, donc je ne m’en préoccupe pas trop, mais le problème de rémunération des artistes demeure
  J’espère qu’un jour on pourra facilement déployer un serveur musical auto-hébergé basé sur les torrents
- Techniquement, il ne faudrait pas le faire, mais c’est possible
- En quelque sorte, une approche à la Popcorn Time