Bark - modèle Text-To-Audio basé sur les transformeurs

xguru · 2023-04-24T09:35:19+09:00

Génération vocale multilingue très réaliste possible Inclut de la musique, du bruit de fond et des effets sonores simples Peut aussi produire des formes de communication non verbale comme le rire, le soupir ou les pleurs Prend en charge l’anglais, le coréen, l’allemand, le français, le japonais, le chinois, etc. Utilise le codec EnCodec de Facebook Bark est sous licence CC-BY 4.0 NC, et le modèle Suno lui-même peut être utilisé à des fins commerciales

(github.com/suno-ai)

24 points par xguru 2023-04-24 | 2 commentaires | Partager sur WhatsApp

Génération vocale multilingue très réaliste possible
Inclut de la musique, du bruit de fond et des effets sonores simples
Peut aussi produire des formes de communication non verbale comme le rire, le soupir ou les pleurs
Prend en charge l’anglais, le coréen, l’allemand, le français, le japonais, le chinois, etc.
Utilise le codec EnCodec de Facebook
Bark est sous licence CC-BY 4.0 NC, et le modèle Suno lui-même peut être utilisé à des fins commerciales

2 commentaires

dlehals2 2023-04-24

Les générations de Bark diffèrent parfois de mes prompts. Que se passe-t-il ?
Bark est un modèle de type GPT. À ce titre, il peut prendre certaines libertés créatives dans ses générations, ce qui entraîne des sorties du modèle plus variables que les approches traditionnelles de synthèse vocale.

Cette partie fait peur lol. Donc si ça génère parfois différemment du prompt, c'est pour la « liberté créative » du modèle ?..

kuroneko 2023-04-24

C'est assez étonnant de voir à quel point il s'en sort bien en génération en coréen.

Bark - modèle Text-To-Audio basé sur les transformeurs

À lire aussi

2 commentaires