Démo de Stable Audio
(stability-ai.github.io)- La démo de Stable Audio montre, à travers des exemples audio, comment un seul modèle génère à la fois de longs morceaux de musique et des effets sonores en stéréo 44,1 kHz
- La génération musicale met l’accent sur la capacité à produire différents genres et ambiances uniquement à partir de prompts, comme Berlin techno, uplifting acoustic loop, disco, spa lobby meditation ou drum solo
- Les effets sonores couvrent door slam, sports car, motorbike, fireworks, cave footsteps, etc., avec des formulations comme « high-quality, stereo » utilisées dans les prompts
- Les exemples comparatifs sont organisés pour permettre d’écouter côte à côte les résultats de MusicGen-large, MusicGen-stereo, AudioLDM2 et Audiogen-medium, à partir de prompts MusicCaps et AudioCaps
- Les exemples de reconstruction par autoencodeur permettent de vérifier la fidélité audio en comparant les enregistrements originaux aux résultats après passage dans le modèle
Démo de Stable Audio et exemples de génération
- Le site de démo peut ne pas fonctionner correctement dans Safari ; pour une expérience optimale, l’utilisation de Google Chrome est recommandée
- Les ressources associées fournies sont
arXiv,stable-audio-toolsetstable-audio-metricsarXiv: article Stable Audiostable-audio-tools: code pour reproduire Stable Audiostable-audio-metrics: code d’évaluation de Stable Audio
- Le modèle peut générer de la musique stéréo longue durée à longueur variable en 44,1 kHz
- Les prompts d’exemple incluent Berlin techno, uplifting acoustic loop, disco, calm meditation music et drum solo
- Certains prompts précisent aussi le BPM, les instruments, l’ambiance, le style régional et le caractère loopable ou non
- Le même modèle génère aussi des effets sonores stéréo en 44,1 kHz
- Les prompts d’exemple incluent door slam, sports car passing by, motorbike passing by, fireworks et reverberant footsteps inside a large rocky cave
- La mention « high-quality, stereo » a été ajoutée aux prompts d’effets sonores, avec l’indication que cette approche aide généralement
Comparaison de modèles et reconstruction par autoencodeur
- La comparaison de musique longue durée est organisée autour de prompts MusicCaps
- Stable Audio : stéréo, 44,1 kHz
- MusicGen-large : mono, 32 kHz
- MusicGen-stereo : stéréo, 32 kHz
- AudioLDM2 : mono, 48 kHz
- Les prompts et les audios utilisés pour la comparaison ont servi à l’étude qualitative rapportée dans l’article
- La comparaison des effets sonores utilise des prompts AudioCaps
- Stable Audio : stéréo, 44,1 kHz
- Audiogen-medium : mono, 32 kHz
- AudioLDM2 : mono, 48 kHz
- Les prompts AudioCaps sélectionnés aléatoirement ne demandent pas de grands mouvements stéréo, ce qui donne des résultats rendus de manière relativement peu spatialisée
- La section Autoencoder fournit des comparaisons de reconstruction pour évaluer la fidélité audio
- À gauche se trouvent les enregistrements ground truth, et à droite les résultats obtenus après passage de ces enregistrements ground truth dans l’autoencodeur
- Les reconstructions sont assez transparentes et très proches du ground truth
1 commentaires
Réactions sur Hacker News
Fait intéressant, Ed Newton-Rex, qui avait été embauché pour créer Stable Audio, a quitté l’entreprise juste après le lancement, par inquiétude concernant les questions de droits d’auteur et de données d’entraînement
Il a ensuite fondé https://www.fairlytrained.org/
Référence : https://x.com/ednewtonrex
Même pour des ayants droit disposant de dizaines ou centaines de millions d’éléments en bibliothèque, comme des images ou des extraits audio, moins d’un milliard de tokens de texte dans un grand dépôt ne suffit pas pour obtenir de bonnes performances d’encodeur dans un modèle de génération texte-vers-média. Cela inclut aussi Firefly d’Adobe
C’est également une erreur de croire qu’avoir beaucoup de données similaires dans ce type de bibliothèque est particulièrement utile. Sans encodeur de texte puissant, la plupart des modèles texte-vers-média produisent des résultats qui paraissent ou sonnent très génériques
Le moyen le plus simple de lever ce soupçon est de publier l’architecture du modèle
Quoi qu’il en soit, même si tout cela était vrai, si nous parlons des modèles de diffusion et prêtons attention au travail de Fairly Trained, c’est précisément parce que quelqu’un s’est entraîné sur des données sans licence explicite
C’est un poste important, bien sûr, mais cette formulation fait plutôt penser à un développeur principal ou à un chercheur
Sachant qu’il est un fondateur avec un parcours dans la musique, son départ est aussi plus compréhensible
Ou peut-être que cela faisait partie du parcours nécessaire à son activité de certification
À mes yeux, ce n’est pas différent d’un artiste qui compose de la musique sous l’influence de tout ce qu’il a écouté pendant sa vie. Fondamentalement, c’est exactement la même chose, et on ne crée pas de musique ou d’art dans le vide
Warning: This website may not function properly on Safari. For the best experience, please use Google Chrome.J’ai l’impression de revenir à l’époque d’Internet Explorer dans les années 90. La seule différence, cette fois, c’est que le navigateur dominant est open source
Quelqu’un devrait créer pour Chrome un bouton GIF animé disant « Best viewed with Google Chrome »
Voir le bouton : https://indiscipline.github.io/post/best-viewed-in-google-ch...
Comme pour Stable Diffusion, il est probable que, pour ce modèle aussi, les prompts textuels soient le moyen le plus difficile à contrôler pour obtenir une sortie utile
On imagine facilement l’usage de MIDI en entrée avec ControlNet, pour en faire pratiquement un synthétiseur neuronal
Il vaut mieux se concentrer sur l’usage de l’IA pour assister le processus des artistes à différentes étapes de la production musicale
Comparé aux modèles musicaux récents comme MusicGen et MusicLM, c’est incroyablement bon. Il semble aussi y avoir une page produit utilisable par abonnement, à la manière de Midjourney : https://www.stableaudio.com/
Malheureusement, ce n’est pas un modèle avec poids publiés, et il ne semble pas non plus y avoir d’API. C’est un service de génération audio via une interface utilisateur sur abonnement mensuel, pas quelque chose que les développeurs peuvent intégrer ou encapsuler
Je me demande pourquoi ce cas n’entre pas simplement dans la clause « produit commercial avec moins de 100 000 utilisateurs actifs mensuels » et fait l’objet d’une clause séparée
Les modèles progressent très vite, donc cela pourrait être une année assez importante pour la musique
Je pense qu’il manque encore une étape où l’IA apprend d’abord à quoi ressemble une bibliothèque sonore de haute qualité, puis applique ce qu’elle a appris pour déclencher, via MIDI, les sons de cette bibliothèque
De cette façon, on pourrait obtenir à la fois la créativité de l’IA musicale et une qualité audio irréprochable
Je ne sais pas quel type de dataset ou d’architecture pourrait convenir à ça, mais ce serait vraiment fascinant
Ce n’est pas pour minimiser les progrès réalisés ici, c’est impressionnant
En tant que batteur, un « solo de batterie » fait partie des choses les plus ennuyeuses, et on y entend des sons bizarres. Au final, tout dépendra probablement du public visé
À titre de référence, même les effets sonores ne me paraissent pas réalistes à l’oreille, à l’heure actuelle
Cela dit, les progrès sont considérables, bravo
Son caractère aléatoire sans être totalement aléatoire produit des motifs rythmiques assez atypiques. J’aimerais pouvoir improviser ce genre de syncopes sur le moment
Ne me demandez pas de le transcrire en partition
La régularité du tempo est excellente. En revanche, les bruits parasites inutiles et les résonances aléatoires de cymbales montrent les limites du modèle
Il existe déjà des millions de morceaux de bibliothèque musicale et d’effets sonores qui sonnent bien mieux. Pour rivaliser avec cela, l’IA générative exigerait des investissements massifs, et contrairement au texte ou à l’image, je ne vois pas de viabilité économique
On dirait quelqu’un qui tape sur une batterie au hasard tout en restant à peu près dans le tempo
En revanche, pour des choses comme la musique d’ascenseur, il s’en sort à peu près, ce qui correspond aussi aux attentes
Il est intéressant qu’ils publient le code et un guide pédagogique pour l’entraînement, mais pas le modèle lui-même
C’est presque comme s’ils suppliaient des inconnus de brancher le data loader sur leur compte Apple Music et de le faire tourner autant qu’ils veulent. Bien sûr, personne ne suggère de faire ça
L’idée de générer des effets sonores m’avait brièvement enthousiasmé, mais ces « bruits de pas » sont incroyablement mauvais
Il n’y a donc pas de poids publiés ? Il est difficile de trouver une formulation claire dans un sens ou dans l’autre
Modification : ah, je ne pensais pas que ce serait un commentaire controversé. J’aurais préféré qu’on réponde à la question avant de voter négativement, mais bon, peu importe
Référence : https://github.com/Stability-AI/stable-audio-tools
« Pour les prompts d’effets sonores, il est généralement utile d’ajouter “high-quality, stereo”. »
Je trouve drôle qu’on ait découvert que demander poliment à un LLM de produire un meilleur résultat améliore la sortie
Comme toujours avec les ordinateurs, ils exécutent non pas ce que nous voulions dire, mais ce que nous avons demandé