- Modèle Open Weight de synthèse vocale text-to-speech entraîné sur plus de 200�00 heures de données vocales multilingues
- Qualité vocale « équivalente ou supérieure » aux services TTS commerciaux et « offre d’une expressivité naturelle »
- Sortie vocale haute qualité à une fréquence d’échantillonnage de 44 kHz
- Prise en charge du clonage vocal : possibilité de reproduire avec précision le style d’un locuteur spécifique à partir de seulement quelques secondes de voix de référence
- Nombreuses fonctions de contrôle : vitesse d’élocution, hauteur, qualité vocale et émotions (joie, peur, tristesse, colère, etc.)
Fonctionnalités principales
- TTS zero-shot et clonage vocal
- En saisissant du texte et un échantillon de voix de 10 à 30 secondes, il est possible de générer immédiatement une synthèse vocale de haute qualité
- Prise en charge de l’entrée d’un préfixe audio
- L’ajout d’un préfixe audio avec le texte permet une correspondance plus précise du locuteur
- Efficace pour reproduire des styles vocaux spécifiques, comme une voix chuchotée
- Prise en charge multilingue
- Anglais, japonais, chinois, français et allemand pris en charge
- Contrôle des émotions et de la qualité vocale
- Réglage des émotions : possibilité d’exprimer la joie, la colère, la tristesse, la peur, etc.
- Réglages vocaux détaillés : ajustement possible de la vitesse, de la hauteur, de la fréquence maximale et de la qualité audio
- Performances rapides
- Peut fonctionner à environ 2 fois la vitesse du temps réel sur une RTX 4090
- Prise en charge de Gradio WebUI
- Fournit une interface web simple permettant à chacun de générer facilement de la voix
- Installation et déploiement simples
- Installation et déploiement facilités via Docker
2 commentaires
C’est dommage qu’il n’y ait pas de coréen...
Le coréen est aussi plutôt bien pris en charge. C’est juste un peu maladroit, cela dit.