- Anna’s Archive a sauvegardé l’intégralité des métadonnées et des fichiers musicaux de Spotify et les a publiés sous la forme d’une archive torrent d’environ 300 To
- L’ensemble comprend les métadonnées de 256 millions de morceaux et 86 millions de fichiers musicaux, couvrant 99,6 % des écoutes
- Les morceaux populaires sont conservés dans leur qualité d’origine en OGG Vorbis 160kbit/s, tandis que les morceaux moins populaires sont stockés en OGG Opus 75kbit/s, pour une préservation plus efficace
- Les données sont fournies sous forme de bases de données SQLite et incluent une structure détaillée comprenant playlists, audio features et pochettes d’album
- Il s’agit de la première archive de préservation musicale totalement ouverte au monde, conçue pour préserver durablement le patrimoine musical de l’humanité face aux catastrophes naturelles, aux guerres ou aux coupes budgétaires
Vue d’ensemble du projet
- Anna’s Archive a sauvegardé Spotify en scrapant à grande échelle l’ensemble des métadonnées et fichiers musicaux
- Volume total d’environ 300 To, distribués sous forme de torrents regroupés par popularité
- Comprend 256 millions de morceaux et 186 millions de codes ISRC uniques
- Cette archive est un dépôt de préservation musicale entièrement ouvert et duplicable par n’importe qui, incluant 86 millions de fichiers musicaux
- Cela représente environ 99,6 % de l’écoute totale sur Spotify
- Anna’s Archive s’était jusqu’ici surtout concentrée sur la préservation de contenus textuels (livres, articles scientifiques, etc.), mais étend désormais son champ à la musique en tant que média non textuel
- Après avoir découvert une méthode de scraping structurée de Spotify, le projet a lancé la création d’une archive centrée sur la préservation musicale
Limites de la préservation musicale existante
- Les tentatives existantes de préservation musicale présentent trois grands problèmes
- Une focalisation biaisée sur les artistes populaires, qui laisse de côté les musiques de niche
- Une obsession pour l’audio sans perte, entraînant une utilisation inefficace de l’espace de stockage
- L’absence d’une liste de torrents représentant l’ensemble de la musique
- Cette sauvegarde de Spotify cherche à corriger ces limites pour construire une archive musicale pensée pour la préservation
Composition des données et statistiques
- Récupération des métadonnées de 99,9 % des quelque 256 millions de morceaux de Spotify
- Priorisation selon l’indicateur de popularité (
popularity)
- Les morceaux avec
popularity>0 sont stockés dans leur qualité d’origine en OGG Vorbis 160kbit/s
- Les morceaux avec
popularity=0 sont réencodés en OGG Opus 75kbit/s
- La plupart des morceaux sortis avant juillet 2025 sont inclus
- Le total des streams des 3 morceaux les plus écoutés (Lady Gaga, Billie Eilish, Bad Bunny) est supérieur à celui cumulé des 20 à 100 millions de morceaux les moins écoutés
- Plus de 70 % de l’ensemble du catalogue correspond à des morceaux peu populaires, avec moins de 1 000 écoutes
Structure de distribution par torrent
- Les données sont réparties en deux parties : métadonnées et fichiers musicaux
- Métadonnées : fournies en SQLite DB, environ 200 Go (compressés)
- Données d’analyse audio : 4 To (compressés)
- Les fichiers musicaux sont distribués au format Anna’s Archive Containers (AAC)
- Après suppression des paquets OGG incorrects de Spotify, des métadonnées comme le titre, l’ISRC, la pochette d’album et les informations ReplayGain sont insérées
- Certains fichiers contiennent une erreur sur la balise
REPLAYGAIN_ALBUM_PEAK
Exploration et analyse des données
- Distribution de la popularité : l’essentiel des écoutes se concentre sur les morceaux dans la plage
popularity 50~80
- Durée des morceaux : des pics apparaissent autour de 2, 3 et 4 minutes
- Statistiques incluses sur les contenus Explicit et les morceaux avec doublons d’ISRC
- Répartition des genres d’artistes : visualisations fournies par genre détaillé et par genre regroupé
- Analyse des années de sortie des albums : forte hausse récente des musiques générées automatiquement ou par IA
- Analyse des audio features : BPM moyen d’environ 120, avec confirmation d’une corrélation entre loudness et energy
Structure détaillée des métadonnées
- Principaux fichiers SQLite
spotify_clean.sqlite3 : réplique quasi complète de l’API pour les artistes, albums et morceaux
spotify_clean_audio_features.sqlite3 : stocke pour chaque morceau des audio features comme le BPM, la tonalité, l’energy ou la valence
spotify_clean_playlists.sqlite3 : comprend 6,6 millions de playlists et 1,7 milliard d’entrées de morceaux
spotify_clean_track_files.sqlite3 : fait la correspondance entre les morceaux et les fichiers réels, avec état du fichier, hash SHA256 et informations sur le donneur de licence
- Des fichiers JSONL supplémentaires incluent des données sur les livres audio, podcasts, émissions et épisodes
spotify_2025_07_coverart.tar.torrent contient les images des pochettes d’album
Participation et appel à la préservation
- Anna’s Archive appelle aux dons et à la participation au seeding des torrents
- Même un seeding modeste peut contribuer à la préservation de l’ensemble
- L’objectif est de préserver durablement le patrimoine musical de l’humanité face aux catastrophes naturelles, aux guerres ou aux coupes budgétaires
Fonctionnalités supplémentaires et expérimentations
- Possibilité d’implémenter une fonction « True Shuffle » sur l’ensemble des morceaux de Spotify
- Une requête SQLite permettrait de générer une véritable playlist aléatoire
- Si l’intérêt est suffisant à l’avenir, le projet évoque la possibilité d’ajouter une fonction de téléchargement de fichiers individuels
Résumé
- Anna’s Archive a sauvegardé la quasi-totalité des données de Spotify pour constituer la plus grande base de métadonnées musicales ouverte au monde
- En tant qu’archive de préservation entièrement ouverte, elle peut être dupliquée par n’importe qui
- Le projet réunit transparence de la structure des données, précision technique et pérennité de la conservation
- Au-delà de la dépendance de l’industrie musicale aux plateformes commerciales, il pose les bases d’une préservation permanente des archives culturelles
Aucun commentaire pour le moment.