Stable Audio 2.0

(stability.ai)

7 points par GN⁺ 2024-04-06 | 1 commentaires | Partager sur WhatsApp

Stable Audio 2.0 établit une nouvelle référence pour des morceaux complets de haute qualité générés par l’IA, jusqu’à 3 minutes, en stéréo 44,1 kHz
Introduction d’une fonction de génération audio-to-audio permettant aux utilisateurs d’importer des échantillons et de les transformer à l’aide de prompts en langage naturel
Le modèle a été entraîné exclusivement sur un jeu de données sous licence provenant de la bibliothèque musicale AudioSparx, avec respect des demandes d’opt-out des créateurs et garantie d’une rémunération équitable
Il est possible de découvrir le modèle et de commencer à créer gratuitement sur le site de Stable Audio

Nouvelles fonctionnalités

Génère des morceaux jusqu’à 3 minutes, avec des compositions structurées incluant intro, développement et outro, ainsi que des effets sonores stéréo
Génération Audio-To-Audio : prend en charge l’import de fichiers audio pour transformer une idée en échantillon entièrement produit. Les conditions d’utilisation imposent de n’importer que des contenus libres de droits, et un système avancé de reconnaissance de contenu est utilisé pour prévenir les violations de droits d’auteur
Génération de variations et d’effets sonores : amplifie la production d’une large gamme de sons et d’effets audio, du bruit de frappe au clavier aux acclamations d’une foule, en passant par le bourdonnement d’une rue urbaine
Transfert de style : permet de modifier de façon fluide un audio nouvellement généré ou importé pendant le processus de génération afin de l’adapter au style et à la tonalité spécifiques d’un projet

Recherche

L’architecture de modèle de diffusion latent de Stable Audio 2.0 a été conçue pour permettre la génération structurée de morceaux complets
Pour cela, tous les composants du système ont été ajustés afin d’améliorer les performances sur de longues durées
Un nouvel autoencodeur fortement compressé compresse les formes d’onde audio brutes en représentations beaucoup plus courtes
Un Diffusion Transformer (DiT) remplace le précédent U-Net et se montre plus performant pour manipuler des données sur de longues séquences

Dispositifs de protection

Comme le modèle 1.0, la version 2.0 a été entraînée sur les données d’AudioSparx, qui comprennent plus de 800 000 morceaux de musique, effets sonores, stems d’instruments isolés et leurs métadonnées textuelles associées
Tous les artistes d’AudioSparx disposent d’une option d’opt-out pour l’entraînement des modèles Stable Audio
Pour protéger les droits des titulaires de droits d’auteur, l’import audio s’appuie sur un partenariat avec AudibleMagic et sur leur technologie de reconnaissance de contenu (ACR), afin de prévenir les violations de copyright grâce à une correspondance de contenu en temps réel

Stable Radio

Stable Radio est un flux live 24/7 composé uniquement de morceaux générés par Stable Audio, diffusé sur la chaîne YouTube de Stable Audio
Il est possible de découvrir le modèle et de commencer à créer gratuitement sur le site de Stable Audio.

L’avis de GN⁺

Stable Audio 2.0 a le potentiel d’apporter une innovation majeure à l’industrie musicale en fournissant aux créateurs musicaux des outils de création assistés par IA. Sa capacité à comprendre l’intention de l’utilisateur via le traitement du langage naturel et à la convertir en musique peut simplifier le processus créatif et offrir à davantage de personnes l’opportunité de produire de la musique.
L’un des problèmes que cette technologie peut soulever concerne le droit d’auteur. Même si l’entreprise affirme avoir mis en place des mesures pour prévenir les infractions, les questions juridiques liées à la propriété des contenus générés par l’IA restent complexes.
Parmi les points à considérer lors de l’introduction de l’IA dans la production musicale figure la perception de l’originalité et de la dimension artistique de la musique générée par l’IA. Il est nécessaire d’ouvrir le débat sur la capacité de l’IA à imiter ou à remplacer la créativité humaine, et sur les conséquences possibles pour l’industrie musicale.
Parmi les avantages de ces outils de génération musicale par IA figurent la réduction du temps de création, l’expérimentation de styles et de genres variés, ainsi que la possibilité de créer de la musique sans connaissance approfondie en théorie musicale ou en pratique instrumentale.
En considérant l’impact positif potentiel de cette technologie sur l’éducation musicale, elle pourrait aider les étudiants en théorie musicale à explorer et comprendre divers styles et structures musicales.

1 commentaires

GN⁺ 2024-04-06

Avis Hacker News

Une musique IA impressionnante, mais il semble manquer quelque chose, comme s’il était impossible d’y ressentir l’intention et l’émotion présentes dans une musique créée par des humains.
Il n’y a aucune mention du droit d’auteur concernant l’audio généré par l’IA, ce qui pose une question importante sur la propriété des résultats.
J’ai donné à l’IA un beat que j’avais créé il y a 10 ans, et le résultat sonnait comme si on avait mis une chaîne stéréo dans une machine à laver. Il faudrait sans doute un jeu de données plus vaste, mais j’envisage quand même un abonnement.
C’est une bonne chose que Stability AI utilise un jeu de données sous licence afin de garantir une rémunération équitable aux créateurs.
C’est impressionnant techniquement, mais la musique générée par l’IA reste banale. Un musicien électronique contemporain peut faire mieux.
C’est dommage que Stability AI ne soit pas open source. J’espère qu’ils ne suivront pas la même voie qu’OpenAI.
L’IA essaie de reconstruire des échantillons audio de manière similaire, mais ce n’est pas la même chose qu’une vraie batterie ou qu’une vraie guitare jouée. Cela reste intéressant, et on peut espérer une version améliorée à l’avenir.
J’en avais assez de la musique synthwave à écouter en codant et je cherchais quelque chose de nouveau ; l’IA pourrait peut-être générer à l’infini des playlists « assez bonnes ».
Je n’ai pas réussi à générer quoi que ce soit d’intéressant avec l’IA. Le site est difficile à utiliser.
Je me demande s’il existe une interface de style ComfyUI pour les modèles audio.

Stable Audio 2.0

Nouvelles fonctionnalités

Recherche

Dispositifs de protection

Stable Radio

L’avis de GN⁺

À lire aussi

1 commentaires

Avis Hacker News