12 points par xguru 2024-02-10 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Modèle TTS (texte-vers-parole) de 1,2 milliard de paramètres, entraîné sur 10000 heures de voix
  • Rythme et intonation de parole émotionnels (anglais)
  • Prend en charge le clonage de voix via fine-tuning (dans le cas de locuteurs indiens, cela a fonctionné avec seulement environ 1 minute de données vocales)
  • Pour les voix américaines et britanniques, clonage Zero-Shot possible avec seulement 30 secondes d'audio de référence
  • Prend en charge la synthèse vocale longue
  • Utilisable sans restriction sous licence Apache 2.0

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.