- SoundStorm est un modèle de génération audio efficace et non autorégressive.
- Ce modèle génère des tokens audio en utilisant une attention bidirectionnelle et un décodage parallèle fondé sur la confiance.
- Par rapport aux autres approches, SoundStorm est 100 fois plus rapide tout en conservant la même qualité et la même cohérence audio.
- Sur TPU-v4, SoundStorm peut générer 30 secondes d’audio en seulement 0,5 seconde.
- Ce modèle peut synthétiser des dialogues naturels de haute qualité en contrôlant le contenu parlé, la voix du locuteur et les changements de locuteur.
- SoundStorm peut générer de l’audio à partir de tokens sémantiques avec un prompt vocal.
- Ce modèle produit un audio de haute qualité tout en préservant la voix du locuteur à partir du prompt vocal.
- SoundStorm génère un audio de meilleure qualité que d’autres modèles.
- Comme ce modèle peut être affecté par les biais des données d’entraînement, il convient d’être prudent pour éviter les usages abusifs.
- SoundStorm peut être détecté par un classificateur dédié, ce qui réduit le risque d’usage abusif.
- Ce modèle a été développé afin de rendre la recherche sur la génération audio plus accessible à une communauté plus large.
1 commentaires
Commentaires Hacker News
|pour indiquer les changements de voix.