Démo de Stable Audio

(stability-ai.github.io)

1 points par GN⁺ 2024-02-14 | 1 commentaires | Partager sur WhatsApp

La démo de Stable Audio montre, à travers des exemples audio, comment un seul modèle génère à la fois de longs morceaux de musique et des effets sonores en stéréo 44,1 kHz
La génération musicale met l’accent sur la capacité à produire différents genres et ambiances uniquement à partir de prompts, comme Berlin techno, uplifting acoustic loop, disco, spa lobby meditation ou drum solo
Les effets sonores couvrent door slam, sports car, motorbike, fireworks, cave footsteps, etc., avec des formulations comme « high-quality, stereo » utilisées dans les prompts
Les exemples comparatifs sont organisés pour permettre d’écouter côte à côte les résultats de MusicGen-large, MusicGen-stereo, AudioLDM2 et Audiogen-medium, à partir de prompts MusicCaps et AudioCaps
Les exemples de reconstruction par autoencodeur permettent de vérifier la fidélité audio en comparant les enregistrements originaux aux résultats après passage dans le modèle

Démo de Stable Audio et exemples de génération

Le site de démo peut ne pas fonctionner correctement dans Safari ; pour une expérience optimale, l’utilisation de Google Chrome est recommandée
Les ressources associées fournies sont arXiv, stable-audio-tools et stable-audio-metrics
- arXiv : article Stable Audio
- stable-audio-tools : code pour reproduire Stable Audio
- stable-audio-metrics : code d’évaluation de Stable Audio
Le modèle peut générer de la musique stéréo longue durée à longueur variable en 44,1 kHz
- Les prompts d’exemple incluent Berlin techno, uplifting acoustic loop, disco, calm meditation music et drum solo
- Certains prompts précisent aussi le BPM, les instruments, l’ambiance, le style régional et le caractère loopable ou non
Le même modèle génère aussi des effets sonores stéréo en 44,1 kHz
- Les prompts d’exemple incluent door slam, sports car passing by, motorbike passing by, fireworks et reverberant footsteps inside a large rocky cave
- La mention « high-quality, stereo » a été ajoutée aux prompts d’effets sonores, avec l’indication que cette approche aide généralement

Comparaison de modèles et reconstruction par autoencodeur

La comparaison de musique longue durée est organisée autour de prompts MusicCaps
- Stable Audio : stéréo, 44,1 kHz
- MusicGen-large : mono, 32 kHz
- MusicGen-stereo : stéréo, 32 kHz
- AudioLDM2 : mono, 48 kHz
- Les prompts et les audios utilisés pour la comparaison ont servi à l’étude qualitative rapportée dans l’article
La comparaison des effets sonores utilise des prompts AudioCaps
- Stable Audio : stéréo, 44,1 kHz
- Audiogen-medium : mono, 32 kHz
- AudioLDM2 : mono, 48 kHz
- Les prompts AudioCaps sélectionnés aléatoirement ne demandent pas de grands mouvements stéréo, ce qui donne des résultats rendus de manière relativement peu spatialisée
La section Autoencoder fournit des comparaisons de reconstruction pour évaluer la fidélité audio
- À gauche se trouvent les enregistrements ground truth, et à droite les résultats obtenus après passage de ces enregistrements ground truth dans l’autoencodeur
- Les reconstructions sont assez transparentes et très proches du ground truth

1 commentaires

GN⁺ 2024-02-14

Réactions sur Hacker News

Fait intéressant, Ed Newton-Rex, qui avait été embauché pour créer Stable Audio, a quitté l’entreprise juste après le lancement, par inquiétude concernant les questions de droits d’auteur et de données d’entraînement
Il a ensuite fondé https://www.fairlytrained.org/
Référence : https://x.com/ednewtonrex
- Avec les modèles génératifs, si le créateur ne publie pas l’architecture du modèle et qu’il s’agit d’un modèle qui convertit du texte vers un autre média, on peut supposer qu’il a délégué en partie à un encodeur de texte entraîné sur des données sans licence explicite, ou à quelque chose de similaire
  Même pour des ayants droit disposant de dizaines ou centaines de millions d’éléments en bibliothèque, comme des images ou des extraits audio, moins d’un milliard de tokens de texte dans un grand dépôt ne suffit pas pour obtenir de bonnes performances d’encodeur dans un modèle de génération texte-vers-média. Cela inclut aussi Firefly d’Adobe
  C’est également une erreur de croire qu’avoir beaucoup de données similaires dans ce type de bibliothèque est particulièrement utile. Sans encodeur de texte puissant, la plupart des modèles texte-vers-média produisent des résultats qui paraissent ou sonnent très génériques
  Le moyen le plus simple de lever ce soupçon est de publier l’architecture du modèle
  Quoi qu’il en soit, même si tout cela était vrai, si nous parlons des modèles de diffusion et prêtons attention au travail de Fairly Trained, c’est précisément parce que quelqu’un s’est entraîné sur des données sans licence explicite
- Le qualifier de « personne embauchée pour créer Stable Audio » est un peu trompeur. Il occupait un poste de direction en tant que VP produit du groupe audio de Stability
  C’est un poste important, bien sûr, mais cette formulation fait plutôt penser à un développeur principal ou à un chercheur
  Sachant qu’il est un fondateur avec un parcours dans la musique, son départ est aussi plus compréhensible
- C’est une interprétation intéressante, mais c’est aussi une position assez étrange, étant donné que la manière dont Stable Diffusion a été entraîné était déjà bien connue quand il a rejoint Stability
- Même si l’entreprise l’aurait fait de toute façon, on se demande s’il n’aurait pas pu y réfléchir avant d’aller y travailler
  Ou peut-être que cela faisait partie du parcours nécessaire à son activité de certification
- Il faut trouver une solution aux barrières liées au droit d’auteur auxquelles les entreprises se heurtent lorsqu’elles entraînent leurs modèles
  À mes yeux, ce n’est pas différent d’un artiste qui compose de la musique sous l’influence de tout ce qu’il a écouté pendant sa vie. Fondamentalement, c’est exactement la même chose, et on ne crée pas de musique ou d’art dans le vide
Warning: This website may not function properly on Safari. For the best experience, please use Google Chrome.
J’ai l’impression de revenir à l’époque d’Internet Explorer dans les années 90. La seule différence, cette fois, c’est que le navigateur dominant est open source
Quelqu’un devrait créer pour Chrome un bouton GIF animé disant « Best viewed with Google Chrome »
- Le voilà
  Voir le bouton : https://indiscipline.github.io/post/best-viewed-in-google-ch...
- Chrome n’est pas open source, c’est Chromium qui l’est. Mieux vaut ne pas les confondre
- Le site fonctionnait très bien aussi sur Safari, je n’ai rien remarqué de problématique
Comme pour Stable Diffusion, il est probable que, pour ce modèle aussi, les prompts textuels soient le moyen le plus difficile à contrôler pour obtenir une sortie utile
On imagine facilement l’usage de MIDI en entrée avec ControlNet, pour en faire pratiquement un synthétiseur neuronal
- Oui. Depuis que je travaillais sur un projet de mélodies IA il y a deux ans (https://www.melodies.ai/), je pensais déjà que produire des morceaux finis de haute qualité uniquement à partir de texte ne serait, pendant un bon moment, ni vraiment faisable ni souhaitable
  Il vaut mieux se concentrer sur l’usage de l’IA pour assister le processus des artistes à différentes étapes de la production musicale
- C’est peut-être vrai pour la musique. Mais pour les effets sonores, je pense que les prompts textuels constituent une assez bonne interface utilisateur
- L’idéal serait sans doute de prendre à la fois un enregistrement audio où l’on fredonne ou chante une mélodie, et un prompt textuel, puis de générer une piste qui lui ressemble
- Ça marche bien quand on n’a pas besoin de beaucoup de contrôle. Par exemple avec un prompt du type « solo de free jazz par un saxophoniste ténor, sans mesure »
- À part les prompts textuels, quelles autres entrées existe-t-il dans Stable Diffusion ? Vous parlez de img2img, de ControlNet, ce genre de choses ?
Comparé aux modèles musicaux récents comme MusicGen et MusicLM, c’est incroyablement bon. Il semble aussi y avoir une page produit utilisable par abonnement, à la manière de Midjourney : https://www.stableaudio.com/
Malheureusement, ce n’est pas un modèle avec poids publiés, et il ne semble pas non plus y avoir d’API. C’est un service de génération audio via une interface utilisateur sur abonnement mensuel, pas quelque chose que les développeurs peuvent intégrer ou encapsuler
- Je voulais créer des effets sonores pour le jeu sur lequel je travaille, mais il semble qu’il faille une licence entreprise (https://www.stableaudio.com/pricing)
  Je me demande pourquoi ce cas n’entre pas simplement dans la clause « produit commercial avec moins de 100 000 utilisateurs actifs mensuels » et fait l’objet d’une clause séparée
- Apparemment, une version sous licence CC et une API arrivent bientôt
  Les modèles progressent très vite, donc cela pourrait être une année assez importante pour la musique
- Heureusement, l’entraînement reste possible à la maison. La question plus importante, c’est celle des données
Je pense qu’il manque encore une étape où l’IA apprend d’abord à quoi ressemble une bibliothèque sonore de haute qualité, puis applique ce qu’elle a appris pour déclencher, via MIDI, les sons de cette bibliothèque
De cette façon, on pourrait obtenir à la fois la créativité de l’IA musicale et une qualité audio irréprochable
- J’ai toujours souhaité quelque chose de ce genre aussi pour les IA de génération d’images. Au lieu d’une amélioration itérative magique à partir d’une image finalisée, ce serait bien plus cool et intéressant de voir l’IA essayer de peindre au pinceau ou de colorier
  Je ne sais pas quel type de dataset ou d’architecture pourrait convenir à ça, mais ce serait vraiment fascinant
- Avec le MIDI, comment peut-on obtenir par exemple une guitare jouée de façon rugueuse, ou le léger écho produit par un enregistrement dans une salle de bain ?
- Ce n’est pas justement ce que fait suno.ai ?
Ce n’est pas pour minimiser les progrès réalisés ici, c’est impressionnant
En tant que batteur, un « solo de batterie » fait partie des choses les plus ennuyeuses, et on y entend des sons bizarres. Au final, tout dépendra probablement du public visé
À titre de référence, même les effets sonores ne me paraissent pas réalistes à l’oreille, à l’heure actuelle
Cela dit, les progrès sont considérables, bravo
- En tant que batteur, si on considère ça comme quelque chose qui se déroule sur un 4/4 régulier, ce « solo de batterie » était étonnamment intéressant à écouter
  Son caractère aléatoire sans être totalement aléatoire produit des motifs rythmiques assez atypiques. J’aimerais pouvoir improviser ce genre de syncopes sur le moment
  Ne me demandez pas de le transcrire en partition
  La régularité du tempo est excellente. En revanche, les bruits parasites inutiles et les résonances aléatoires de cymbales montrent les limites du modèle
- C’est une tentative impressionnante, mais on est encore très loin de générer de la musique ou des sons réellement exploitables
  Il existe déjà des millions de morceaux de bibliothèque musicale et d’effets sonores qui sonnent bien mieux. Pour rivaliser avec cela, l’IA générative exigerait des investissements massifs, et contrairement au texte ou à l’image, je ne vois pas de viabilité économique
- J’ai été encore plus déçu par l’absence de transitions dans les extraits musicaux. La plupart des morceaux comportent des modulations ou des transitions percussives
- Le solo de batterie montre bien à quel point ce modèle passe à côté de l’essence même d’un solo de batterie. Je ne suis pas batteur, mais ce n’est pas du tout agréable à écouter
  On dirait quelqu’un qui tape sur une batterie au hasard tout en restant à peu près dans le tempo
  En revanche, pour des choses comme la musique d’ascenseur, il s’en sort à peu près, ce qui correspond aussi aux attentes
Il est intéressant qu’ils publient le code et un guide pédagogique pour l’entraînement, mais pas le modèle lui-même
C’est presque comme s’ils suppliaient des inconnus de brancher le data loader sur leur compte Apple Music et de le faire tourner autant qu’ils veulent. Bien sûr, personne ne suggère de faire ça
- J’imagine qu’ils ont peut-être obtenu l’accès à la bibliothèque audio de stock sous licence d’AudioSparx pour l’entraînement à condition de ne pas redistribuer le modèle résultant
L’idée de générer des effets sonores m’avait brièvement enthousiasmé, mais ces « bruits de pas » sont incroyablement mauvais
- J’ai essayé la génération musicale sur stableaudio.com et oui, ce n’est pas terrible. Cela dit, le rythme de développement de ces modèles est si rapide que je ne serais pas surpris que cela devienne incroyablement bon d’ici 1 à 2 ans
Il n’y a donc pas de poids publiés ? Il est difficile de trouver une formulation claire dans un sens ou dans l’autre
Modification : ah, je ne pensais pas que ce serait un commentaire controversé. J’aurais préféré qu’on réponde à la question avant de voter négativement, mais bon, peu importe
- Exact, il n’y en a pas. Ils ont publié le code pour l’entraînement, l’inférence et le fine-tuning, mais pas le dataset ni les poids
  Référence : https://github.com/Stability-AI/stable-audio-tools
« Pour les prompts d’effets sonores, il est généralement utile d’ajouter “high-quality, stereo”. »
Je trouve drôle qu’on ait découvert que demander poliment à un LLM de produire un meilleur résultat améliore la sortie
- Parfois, on peut vouloir le son d’une vieille cassette, ou celui, encore plus ancien, d’un disque 78 tours rayé
  Comme toujours avec les ordinateurs, ils exécutent non pas ce que nous voulions dire, mais ce que nous avons demandé

Démo de Stable Audio

Démo de Stable Audio et exemples de génération

Comparaison de modèles et reconstruction par autoencodeur

À lire aussi

1 commentaires

Réactions sur Hacker News