5 points par GN⁺ 2023-09-14 | 1 commentaires | Partager sur WhatsApp
  • Modèle de diffusion latente (Latent Diffusion Model)
    • Modèle de diffusion opérant dans l’espace d’encodage latent d’un autoencodeur préentraîné
    • Améliore considérablement la vitesse d’entraînement et d’inférence des modèles de diffusion
  • L’un des principaux problèmes lors de la génération audio avec des modèles de diffusion est qu’ils sont généralement entraînés à produire des sorties de taille fixe
    • S’il est entraîné sur des clips audio de 30 secondes, il ne peut générer de l’audio que par segments de 30 secondes
    • Cela devient problématique lorsqu’on veut entraîner et générer des audios de longueurs très variables, comme pour créer un morceau complet
  • Les modèles de diffusion audio ont tendance à être entraînés sur des chunks audio découpés aléatoirement à partir de longs fichiers audio, puis tronqués ou complétés pour correspondre à la longueur d’entraînement du modèle de diffusion
  • Dans le cas de la musique, cela pousse le modèle à générer des sections de morceaux arbitraires qui commencent ou se terminent au milieu d’une phrase musicale
  • Stable Audio est un modèle de diffusion latente pour l’audio, conditionné non seulement par la longueur du fichier audio et son heure de début, mais aussi par des métadonnées textuelles
    • Cette fonction de contrôle temporel permet de générer un audio d’une longueur spécifiée, jusqu’à la taille de la fenêtre d’entraînement
  • Le modèle Stable Audio, qui utilise des techniques modernes d’échantillonnage par diffusion, peut générer 95 secondes d’audio stéréo à une fréquence d’échantillonnage de 44,1 kHz en moins d’une seconde sur un GPU NVIDIA A100
  • Développé par Harmonai, le laboratoire de recherche en audio génératif de Stability AI
  • Basé sur le modèle U-Net de 907M (907 millions) de paramètres utilisé dans Moûsai
  • Le modèle Stable Audio a été entraîné sur un dataset composé de plus de 800 000 fichiers audio, comprenant de la musique, des effets sonores et des stems d’instruments individuels fournis par un important fournisseur de musique nommé AudioSparx
  • Les travaux futurs prévoient d’améliorer l’architecture du modèle, le dataset et les procédures d’entraînement afin d’augmenter la qualité de sortie, le contrôle, la vitesse d’inférence et la longueur des sorties
  • Harmonai prévoit de publier des modèles open source basés sur Stable Audio ainsi que le code d’entraînement pour former des modèles de génération audio

1 commentaires

 
GN⁺ 2023-09-14
Réactions sur Hacker News
  • Cet article discute de « Stable Audio », une technique de diffusion audio latente avec contrôle temporel rapide.
  • Certains utilisateurs estiment que la musique de piano solo générée est propre et intéressante, et suggèrent qu’elle pourrait être facilement convertie en partition pour un usage plus flexible.
  • Dans l’audio comme dans le visuel, il existe une demande pour que l’IA produise des sorties plus structurées ou symboliques, comme les calques ou coups de pinceau d’une image, ou les pistes de composition d’un morceau.
  • Certains utilisateurs ayant une formation musicale n’ont pas été impressionnés par les œuvres générées, qu’ils jugent répétitives et peu imaginatives.
  • Cette technologie pourrait avoir du potentiel pour générer de la musique d’ambiance dans les jeux ou d’autres applications où une musique de haute qualité n’est pas prioritaire.
  • Un utilisateur a suggéré que cette technologie pourrait être utilisée sur Spotify pour générer une musique adaptée aux goûts personnels de chacun.
  • Certains s’interrogent sur la capacité du modèle à prendre en charge ou à « comprendre » les concepts d’audio spatial, par exemple un son d’alarme se déplaçant en cercle.
  • Certains utilisateurs ont exprimé le souhait d’une technologie capable d’accepter des entrées comme une mélodie, une progression d’accords ou des données de performance, ce qui laisse entrevoir le potentiel d’une nouvelle génération d’outils audio.
  • Certains ont relevé un effet de « vallée dérangeante » dans les exemples audio, ce qui signifie que les sons semblent amalgamés et manquent d’une voix musicale nette.
  • Malgré ces critiques, certains utilisateurs se disent reconnaissants de l’existence de telles technologies, en contraste avec les moqueries passées d’entreprises comme Google et Meta.