Publication de la sauvegarde complète de Spotify
(annas-archive.li)- Anna’s Archive a sauvegardé l’intégralité des métadonnées et des fichiers musicaux de Spotify et les a publiés sous la forme d’une archive torrent d’environ 300 To
- L’ensemble comprend les métadonnées de 256 millions de morceaux et 86 millions de fichiers musicaux, couvrant 99,6 % des écoutes
- Les morceaux populaires sont conservés dans leur qualité d’origine en OGG Vorbis 160kbit/s, tandis que les morceaux moins populaires sont stockés en OGG Opus 75kbit/s, pour une préservation plus efficace
- Les données sont fournies sous forme de bases de données SQLite et incluent une structure détaillée comprenant playlists, audio features et pochettes d’album
- Il s’agit de la première archive de préservation musicale totalement ouverte au monde, conçue pour préserver durablement le patrimoine musical de l’humanité face aux catastrophes naturelles, aux guerres ou aux coupes budgétaires
Vue d’ensemble du projet
- Anna’s Archive a sauvegardé Spotify en scrapant à grande échelle l’ensemble des métadonnées et fichiers musicaux
- Volume total d’environ 300 To, distribués sous forme de torrents regroupés par popularité
- Comprend 256 millions de morceaux et 186 millions de codes ISRC uniques
- Cette archive est un dépôt de préservation musicale entièrement ouvert et duplicable par n’importe qui, incluant 86 millions de fichiers musicaux
- Cela représente environ 99,6 % de l’écoute totale sur Spotify
- Anna’s Archive s’était jusqu’ici surtout concentrée sur la préservation de contenus textuels (livres, articles scientifiques, etc.), mais étend désormais son champ à la musique en tant que média non textuel
- Après avoir découvert une méthode de scraping structurée de Spotify, le projet a lancé la création d’une archive centrée sur la préservation musicale
Limites de la préservation musicale existante
- Les tentatives existantes de préservation musicale présentent trois grands problèmes
- Une focalisation biaisée sur les artistes populaires, qui laisse de côté les musiques de niche
- Une obsession pour l’audio sans perte, entraînant une utilisation inefficace de l’espace de stockage
- L’absence d’une liste de torrents représentant l’ensemble de la musique
- Cette sauvegarde de Spotify cherche à corriger ces limites pour construire une archive musicale pensée pour la préservation
Composition des données et statistiques
- Récupération des métadonnées de 99,9 % des quelque 256 millions de morceaux de Spotify
- Priorisation selon l’indicateur de popularité (
popularity)- Les morceaux avec
popularity>0sont stockés dans leur qualité d’origine en OGG Vorbis 160kbit/s - Les morceaux avec
popularity=0sont réencodés en OGG Opus 75kbit/s
- Les morceaux avec
- La plupart des morceaux sortis avant juillet 2025 sont inclus
- Le total des streams des 3 morceaux les plus écoutés (Lady Gaga, Billie Eilish, Bad Bunny) est supérieur à celui cumulé des 20 à 100 millions de morceaux les moins écoutés
- Plus de 70 % de l’ensemble du catalogue correspond à des morceaux peu populaires, avec moins de 1 000 écoutes
Structure de distribution par torrent
- Les données sont réparties en deux parties : métadonnées et fichiers musicaux
- Métadonnées : fournies en SQLite DB, environ 200 Go (compressés)
- Données d’analyse audio : 4 To (compressés)
- Les fichiers musicaux sont distribués au format Anna’s Archive Containers (AAC)
- Après suppression des paquets OGG incorrects de Spotify, des métadonnées comme le titre, l’ISRC, la pochette d’album et les informations ReplayGain sont insérées
- Certains fichiers contiennent une erreur sur la balise
REPLAYGAIN_ALBUM_PEAK
Exploration et analyse des données
- Distribution de la popularité : l’essentiel des écoutes se concentre sur les morceaux dans la plage
popularity 50~80 - Durée des morceaux : des pics apparaissent autour de 2, 3 et 4 minutes
- Statistiques incluses sur les contenus Explicit et les morceaux avec doublons d’ISRC
- Répartition des genres d’artistes : visualisations fournies par genre détaillé et par genre regroupé
- Analyse des années de sortie des albums : forte hausse récente des musiques générées automatiquement ou par IA
- Analyse des audio features : BPM moyen d’environ 120, avec confirmation d’une corrélation entre loudness et energy
Structure détaillée des métadonnées
- Principaux fichiers SQLite
spotify_clean.sqlite3: réplique quasi complète de l’API pour les artistes, albums et morceauxspotify_clean_audio_features.sqlite3: stocke pour chaque morceau des audio features comme le BPM, la tonalité, l’energy ou la valencespotify_clean_playlists.sqlite3: comprend 6,6 millions de playlists et 1,7 milliard d’entrées de morceauxspotify_clean_track_files.sqlite3: fait la correspondance entre les morceaux et les fichiers réels, avec état du fichier, hash SHA256 et informations sur le donneur de licence
- Des fichiers JSONL supplémentaires incluent des données sur les livres audio, podcasts, émissions et épisodes
spotify_2025_07_coverart.tar.torrentcontient les images des pochettes d’album
Participation et appel à la préservation
- Anna’s Archive appelle aux dons et à la participation au seeding des torrents
- Même un seeding modeste peut contribuer à la préservation de l’ensemble
- L’objectif est de préserver durablement le patrimoine musical de l’humanité face aux catastrophes naturelles, aux guerres ou aux coupes budgétaires
Fonctionnalités supplémentaires et expérimentations
- Possibilité d’implémenter une fonction « True Shuffle » sur l’ensemble des morceaux de Spotify
- Une requête SQLite permettrait de générer une véritable playlist aléatoire
- Si l’intérêt est suffisant à l’avenir, le projet évoque la possibilité d’ajouter une fonction de téléchargement de fichiers individuels
Résumé
- Anna’s Archive a sauvegardé la quasi-totalité des données de Spotify pour constituer la plus grande base de métadonnées musicales ouverte au monde
- En tant qu’archive de préservation entièrement ouverte, elle peut être dupliquée par n’importe qui
- Le projet réunit transparence de la structure des données, précision technique et pérennité de la conservation
- Au-delà de la dépendance de l’industrie musicale aux plateformes commerciales, il pose les bases d’une préservation permanente des archives culturelles
7 commentaires
Spotify va peut-être se fâcher
https://fr.news.hada.io/topic?id=26059
D’après les dernières actualités, il semblerait qu’ils aient été poursuivis en justice.
Quelque part entre le justicier et le hors-la-loi...
Les droits d’auteur, ...
On peut désormais imaginer que des modèles de génération musicale, jusqu’ici cantonnés à des offres commerciales comme Suno, puissent aussi être entraînés en open-weight et open source.
C’est énorme 😳😳😳😳
Réactions sur Hacker News
C’est vraiment incroyable
Je ne savais pas que le DRM de Spotify avait été contourné au point de permettre des téléchargements à une telle échelle
Ça ne semble pas avoir une grande utilité pour l’utilisateur lambda, mais pour les chercheurs travaillant sur la classification ou la génération musicale, ça pourrait être une opportunité énorme
Cela dit, il sera sans doute difficile de rendre public le dataset utilisé pour l’entraînement
Je me demande si cela a été fait à la demande de chercheurs en IA, ou simplement dans un but de préservation
Il existe déjà des appareils ou des applis largement diffusés qui trouvent automatiquement des flux illégaux de séries et de films
Techniquement, c’est tout à fait faisable, et même des non-spécialistes dans ma famille utilisent ce genre de choses
Cela dit, l’équipe d’Anna’s Archive est un groupe animé par des motivations idéologiques, donc ce n’est pas pour les entreprises d’IA
Quand j’avais besoin de musique, je la récupérais sur YouTube avec ytldp, mais je le fais maintenant beaucoup moins
J’utilise davantage YouTube pour les infos ou en fond sonore que pour la musique
C’est un peu triste que Google contrôle tout ça
La vraie direction, c’est de réguler des entreprises comme Spotify pour garantir une rémunération juste des musiciens
Ce genre de publication de données ne fait qu’encourager la production de déchets IA
Vu l’échelle, c’est absolument gigantesque
L’ancien What.CD était surnommé « la bibliothèque d’Alexandrie de la musique », et même à l’époque on parlait seulement de quelques millions de torrents
Or le rip Spotify d’Anna contient 186 millions d’enregistrements uniques
Bien sûr, il y aura aussi vers la fin des choses comme de la musique de bots, mais l’ampleur reste écrasante
On y trouvait aussi bien les premiers EP de groupes locaux que des disques rares impossibles à mettre en streaming à cause de situations de droits floues
Le plaisir de la découverte créé par les recommandations de la communauté, les critiques et les playlists artisanales ne peut pas être remplacé par un algorithme
C’est comme ça que j’ai découvert beaucoup d’artistes que j’aime encore aujourd’hui
C’était une communauté mue par un pur amour de la musique, et Trent Reznor en avait parlé très positivement en public
C’est dommage que ce type de communauté musicale authentique ait disparu aujourd’hui
Spotify est limité aux morceaux pour lesquels il existe une licence de streaming
Il reste encore du chemin avant d’avoir une archive musicale vraiment complète
Je pense qu’un projet comme celui-ci est absolument nécessaire
Un site comme Anna’s Archive est aussi important que Internet Archive
L’enjeu central, c’est la préservation du patrimoine numérique : sites web, jeux, livres, etc.
Avec le renouvellement des générations, beaucoup de gens n’auront jamais l’occasion de connaître la créativité du web d’autrefois
Je pense que notre génération est celle qui a encore la possibilité de préserver tout cela
À une époque où musique et films disparaissent peu à peu des plateformes, ce travail de préservation est vraiment essentiel
J’ai moi-même trois playlists grisées — même les titres ont disparu, donc je ne sais plus ce que j’écoutais
Du coup, j’achète en CD la musique que je veux garder pour toujours, et pour la musique dance, je laisse filer
C’est un travail vraiment important
Il suffit de regarder des articles d’il y a 10 ans : la plupart des liens externes sont devenus des 404
On peut se demander s’il faut tout conserver, mais si c’est possible, il faut le faire
Impressionnant
Le simple fait qu’ils aient scrapé Spotify à grande échelle est fascinant
Ils ne révéleront sans doute pas les détails, mais ça serait passionnant à lire
Il vaut simplement mieux ne pas en abuser et garder ça au niveau du projet hobby
Mon serveur musical lit aussi des pistes Spotify de cette façon
Lien vers le code
Personnellement, ça ne me plaît pas vraiment
Il existe déjà des sources de meilleure qualité audio, et ce genre de rip massif ne fait qu’augmenter les risques juridiques
J’ai surtout peur que cela finisse par mettre en danger jusqu’aux bibliothèques d’e-books
Leur annonce disait aussi que « la musique est déjà suffisamment préservée », donc ce projet aurait dû être séparé
Un fournisseur d’accès allemand (SIM.de/Drillisch) bloquait Anna’s Archive
Quand je coupe le VPN, le site ne s’ouvre pas, et il faut activer Mullvad VPN pour y accéder
Je ne savais pas qu’il y avait ce niveau de censure en Allemagne
Si on cherche
alextud popcorntime, le résultat PopcornTimeTV GitHub n’apparaît pasC’est pareil sur Google, Kagi, DuckDuckGo et Bing
Les forks apparaissent, mais pas l’original, ce qui fait soupçonner un filtrage des résultats de recherche
Il y a déjà eu par le passé des musiques supprimées simultanément de plusieurs plateformes
Je me demande si on pourra les retrouver via ce genre d’archive
Aujourd’hui, des médias perdus version moderne naissent pratiquement chaque jour
Certains éditeurs essaient délibérément d’éliminer toutes les copies, et je trouve ça mentalement terrifiant
Détruire complètement une œuvre ne peut être justifié sous aucun prétexte
Si elle ne survit que sur une bande enfermée dans un coffre en acier, alors elle n’existe pratiquement plus
Techniquement, il serait aussi possible de créer un serveur de streaming reposant sur des torrents en backend
Le principe serait de ne télécharger que les parties nécessaires au moment de la demande
Lien vers l’article scientifique
Spotify reste encore peu cher, donc je ne m’en préoccupe pas trop, mais le problème de rémunération des artistes demeure
J’espère qu’un jour on pourra facilement déployer un serveur musical auto-hébergé basé sur les torrents