- Modèle de diffusion latente (Latent Diffusion Model)
- Modèle de diffusion opérant dans l’espace d’encodage latent d’un autoencodeur préentraîné
- Améliore considérablement la vitesse d’entraînement et d’inférence des modèles de diffusion
- L’un des principaux problèmes lors de la génération audio avec des modèles de diffusion est qu’ils sont généralement entraînés à produire des sorties de taille fixe
- S’il est entraîné sur des clips audio de 30 secondes, il ne peut générer de l’audio que par segments de 30 secondes
- Cela devient problématique lorsqu’on veut entraîner et générer des audios de longueurs très variables, comme pour créer un morceau complet
- Les modèles de diffusion audio ont tendance à être entraînés sur des chunks audio découpés aléatoirement à partir de longs fichiers audio, puis tronqués ou complétés pour correspondre à la longueur d’entraînement du modèle de diffusion
- Dans le cas de la musique, cela pousse le modèle à générer des sections de morceaux arbitraires qui commencent ou se terminent au milieu d’une phrase musicale
- Stable Audio est un modèle de diffusion latente pour l’audio, conditionné non seulement par la longueur du fichier audio et son heure de début, mais aussi par des métadonnées textuelles
- Cette fonction de contrôle temporel permet de générer un audio d’une longueur spécifiée, jusqu’à la taille de la fenêtre d’entraînement
- Le modèle Stable Audio, qui utilise des techniques modernes d’échantillonnage par diffusion, peut générer 95 secondes d’audio stéréo à une fréquence d’échantillonnage de 44,1 kHz en moins d’une seconde sur un GPU NVIDIA A100
- Développé par Harmonai, le laboratoire de recherche en audio génératif de Stability AI
- Basé sur le modèle U-Net de 907M (907 millions) de paramètres utilisé dans Moûsai
- Le modèle Stable Audio a été entraîné sur un dataset composé de plus de 800 000 fichiers audio, comprenant de la musique, des effets sonores et des stems d’instruments individuels fournis par un important fournisseur de musique nommé AudioSparx
- Les travaux futurs prévoient d’améliorer l’architecture du modèle, le dataset et les procédures d’entraînement afin d’augmenter la qualité de sortie, le contrôle, la vitesse d’inférence et la longueur des sorties
- Harmonai prévoit de publier des modèles open source basés sur Stable Audio ainsi que le code d’entraînement pour former des modèles de génération audio
1 commentaires
Réactions sur Hacker News