Bark - modèle Text-To-Audio basé sur les transformeurs
(github.com/suno-ai)- Génération vocale multilingue très réaliste possible
- Inclut de la musique, du bruit de fond et des effets sonores simples
- Peut aussi produire des formes de communication non verbale comme le rire, le soupir ou les pleurs
- Prend en charge l’anglais, le coréen, l’allemand, le français, le japonais, le chinois, etc.
- Utilise le codec EnCodec de Facebook
- Bark est sous licence CC-BY 4.0 NC, et le modèle Suno lui-même peut être utilisé à des fins commerciales
2 commentaires
Les générations de Bark diffèrent parfois de mes prompts. Que se passe-t-il ?
Bark est un modèle de type GPT. À ce titre, il peut prendre certaines libertés créatives dans ses générations, ce qui entraîne des sorties du modèle plus variables que les approches traditionnelles de synthèse vocale.
Cette partie fait peur lol. Donc si ça génère parfois différemment du prompt, c'est pour la « liberté créative » du modèle ?..
C'est assez étonnant de voir à quel point il s'en sort bien en génération en coréen.