Zonos - Modèle de synthèse vocale open weight de haute qualité

xguru · 2025-02-14T10:23:01+09:00

Modèle Open Weight de synthèse vocale text-to-speech entraîné sur plus de 20000 heures de données vocales multilingues Qualité vocale « équivalente ou supérieure » aux services TTS commerciaux et « offre d’une expressivité naturelle » Sortie vocale haute qualité à une fréquence d’échantillonnage de 44 kHz Prise en charge du clonage vocal : possibilité de reproduire avec précision le style d’un locuteur spécifique à partir de seulement quelques secondes de voix de référence Nombreuses fonctions de contrôle : vitesse d’élocution, hauteur, qualité vocale et émotions (joie, peur, tristesse, colère, etc.) Fonctionnalités principales TTS zero-shot et clonage vocal En saisissant du texte et un échantillon de voix de 10 à 30 secondes, il est possible de générer immédiatement une synthèse vocale de haute qualité Prise en charge de l’entrée d’un préfixe audio L’ajout d’un préfixe audio avec le texte permet une correspondance plus précise du locuteur Efficace pour reproduire des styles vocaux spécifiques, comme une voix chuchotée Prise en charge multilingue Anglais, japonais, chinois, français et allemand pris en charge Contrôle des émotions et de la qualité vocale Réglage des émotions : possibilité d’exprimer la joie, la colère, la tristesse, la peur, etc. Réglages vocaux détaillés : ajustement possible de la vitesse, de la hauteur, de la fréquence maximale et de la qualité audio Performances rapides Peut fonctionner à environ 2 fois la vitesse du temps réel sur une RTX 4090 Prise en charge de Gradio WebUI Fournit une interface web simple permettant à chacun de générer facilement de la voix Installation et déploiement simples Installation et déploiement facilités via Docker

(github.com/Zyphra)

24 points par xguru 2025-02-14 | 2 commentaires | Partager sur WhatsApp

Modèle Open Weight de synthèse vocale text-to-speech entraîné sur plus de 20000 heures de données vocales multilingues
Qualité vocale « équivalente ou supérieure » aux services TTS commerciaux et « offre d’une expressivité naturelle »
Sortie vocale haute qualité à une fréquence d’échantillonnage de 44 kHz
Prise en charge du clonage vocal : possibilité de reproduire avec précision le style d’un locuteur spécifique à partir de seulement quelques secondes de voix de référence
Nombreuses fonctions de contrôle : vitesse d’élocution, hauteur, qualité vocale et émotions (joie, peur, tristesse, colère, etc.)

Fonctionnalités principales

TTS zero-shot et clonage vocal
- En saisissant du texte et un échantillon de voix de 10 à 30 secondes, il est possible de générer immédiatement une synthèse vocale de haute qualité
Prise en charge de l’entrée d’un préfixe audio
- L’ajout d’un préfixe audio avec le texte permet une correspondance plus précise du locuteur
- Efficace pour reproduire des styles vocaux spécifiques, comme une voix chuchotée
Prise en charge multilingue
- Anglais, japonais, chinois, français et allemand pris en charge
Contrôle des émotions et de la qualité vocale
- Réglage des émotions : possibilité d’exprimer la joie, la colère, la tristesse, la peur, etc.
- Réglages vocaux détaillés : ajustement possible de la vitesse, de la hauteur, de la fréquence maximale et de la qualité audio
Performances rapides
- Peut fonctionner à environ 2 fois la vitesse du temps réel sur une RTX 4090
Prise en charge de Gradio WebUI
- Fournit une interface web simple permettant à chacun de générer facilement de la voix
Installation et déploiement simples
- Installation et déploiement facilités via Docker

2 commentaires

mindok 2025-02-14

C’est dommage qu’il n’y ait pas de coréen...

marantz 2025-02-19

Le coréen est aussi plutôt bien pris en charge. C’est juste un peu maladroit, cela dit.

Zonos - Modèle de synthèse vocale open weight de haute qualité

Fonctionnalités principales

À lire aussi

2 commentaires