MetaVoice-1B - modèle Text-To-Speech de 1,2 milliard de paramètres

xguru · 2024-02-10T10:16:01+09:00

Modèle TTS (texte-vers-parole) de 1,2 milliard de paramètres, entraîné sur 10000 heures de voix Rythme et intonation de parole émotionnels (anglais) Prend en charge le clonage de voix via fine-tuning (dans le cas de locuteurs indiens, cela a fonctionné avec seulement environ 1 minute de données vocales) Pour les voix américaines et britanniques, clonage Zero-Shot possible avec seulement 30 secondes d'audio de référence Prend en charge la synthèse vocale longue Utilisable sans restriction sous licence Apache 2.0

(github.com/metavoiceio)

12 points par xguru 2024-02-10 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Modèle TTS (texte-vers-parole) de 1,2 milliard de paramètres, entraîné sur 10000 heures de voix
Rythme et intonation de parole émotionnels (anglais)
Prend en charge le clonage de voix via fine-tuning (dans le cas de locuteurs indiens, cela a fonctionné avec seulement environ 1 minute de données vocales)
Pour les voix américaines et britanniques, clonage Zero-Shot possible avec seulement 30 secondes d'audio de référence
Prend en charge la synthèse vocale longue
Utilisable sans restriction sous licence Apache 2.0

MetaVoice-1B - modèle Text-To-Speech de 1,2 milliard de paramètres

À lire aussi

Aucun commentaire pour le moment.