- Modèle TTS (texte-vers-parole) de 1,2 milliard de paramètres, entraîné sur 10000 heures de voix
- Rythme et intonation de parole émotionnels (anglais)
- Prend en charge le clonage de voix via fine-tuning (dans le cas de locuteurs indiens, cela a fonctionné avec seulement environ 1 minute de données vocales)
- Pour les voix américaines et britanniques, clonage Zero-Shot possible avec seulement 30 secondes d'audio de référence
- Prend en charge la synthèse vocale longue
- Utilisable sans restriction sous licence Apache 2.0
Aucun commentaire pour le moment.