Démo audio stable
(stability-ai.github.io)Présentation
- Ce site web peut ne pas fonctionner correctement sur Safari, et il est recommandé d’utiliser Google Chrome pour une expérience optimale.
Génération audio stable
- Le modèle peut générer de la musique stéréo en 44,1 kHz sur différentes durées, avec par exemple de la techno berlinoise, de la rave, des boîtes à rythmes, des synthétiseurs et des morceaux à l’atmosphère sombre.
- Contrairement au précédent modèle de pointe, ce modèle peut aussi générer des effets sonores stéréo en 44,1 kHz, avec par exemple un bruit de porte qui se ferme, le passage d’une voiture de sport ou d’une moto, des feux d’artifice ou des bruits de pas dans une grotte.
- Tous les exemples de ce site web sont produits avec un même modèle capable de générer à la fois musique et effets sonores en stéréo 44,1 kHz.
Génération longue de musique stéréo : comparaison avec l’état de l’art
- Il est possible d’évaluer la qualité audio via une comparaison entre ce modèle et d’autres modèles générant une musique mêlant mandoline, sifflement, guitare, flûte, etc.
- La comparaison porte aussi sur une génération musicale commerciale combinant mélodie au piano, roulement de caisse claire, pattern de grosse caisse, charleston, claquements de mains et mélodie lead de synthétiseur.
Effets sonores : comparaison avec l’état de l’art
- Il est possible d’évaluer la qualité audio via une comparaison entre ce modèle et d’autres modèles générant des clics de moteur, des sons de rotation à haute vitesse ou de forts gazouillis d’oiseaux.
- Les prompts sélectionnés n’exigent pas de grands mouvements stéréo, ce qui produit des rendus relativement peu spatialisés.
Autoencodeur : reconstruction
- Pour évaluer la fidélité audio, on compare l’enregistrement original et l’enregistrement passé par l’autoencodeur.
- La reconstruction par l’autoencodeur est très proche de l’originale, à un niveau presque transparent.
Avis de GN⁺
- Cette technologie représente une avancée importante dans le domaine de la génération musicale et des effets sonores, en particulier par sa capacité à produire un son stéréo de haute qualité.
- La comparaison avec les modèles les plus récents permet d’évaluer objectivement la qualité audio supérieure de ce modèle, ce qui en fait potentiellement un outil utile pour les créateurs de contenus audio.
- La comparaison de reconstruction via l’autoencodeur montre que cette technologie peut restaurer l’audio original avec une très grande précision, ce qui laisse entrevoir des usages dans des domaines sensibles à la qualité sonore.
1 commentaires
Commentaires sur Hacker News
Ed Newton-Rex a démissionné peu après le lancement de Stable Audio en raison de préoccupations liées au copyright et aux données d’entraînement.
La situation rappelle les années 90 et Internet Explorer, mais cette fois c’est plus positif dans la mesure où le navigateur dominant est open source.
Comme avec Stable Diffusion, les prompts textuels seront probablement la manière la plus difficile à contrôler pour obtenir une sortie utile.
Stable Audio est très supérieur aux modèles musicaux SOTA actuels (MusicGen, MusicLM).
Il reste encore nécessaire qu’une IA apprenne une bibliothèque sonore de haute qualité et déclenche les sons de cette bibliothèque via le MIDI.
En tant que batteur, le « solo de batterie » est ennuyeux, contient des sons étranges mélangés, et ne produit pas encore des effets sonores réalistes.
Le code et les instructions d’entraînement ont été publiés, mais pas le modèle.
Il est amusant de constater qu’ajouter le prompt « high quality, stereo » aide généralement.
L’idée de générer des effets sonores a été brièvement intéressante, mais les « bruits de pas » sont vraiment très mauvais.
Avec le prompt « musique énergique, violon, chant, orchestre, piano, minimalisme, John Adams, Nixon in China », on peut générer une musique très singulière et intéressante.