Open source de la famille Qwen3-TTS : conception, clonage et génération vocale

(qwen.ai)

31 points par GN⁺ 2026-01-23 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Qwen3-TTS est une série de modèles multilingues de génération vocale prenant en charge le clonage vocal, le voice design, la génération de voix humanoïdes de très haute qualité et le contrôle en langage naturel
Prend en charge 10 langues majeures et divers dialectes, dont le chinois, l’anglais, le japonais et le coréen, et est proposé en deux tailles de modèle : 1.7B et 0.6B
Grâce à l’encodeur Qwen3-TTS-Tokenizer-12Hz développé en interne, les signaux vocaux sont compressés efficacement tout en préservant intégralement les informations non verbales et l’environnement acoustique
L’architecture de streaming Dual-Track produit immédiatement le premier paquet audio après la saisie d’un seul caractère et atteint une synthèse temps réel avec une latence de 97 ms
Avec sa publication en open source, développeurs et entreprises peuvent exploiter directement une technologie de génération vocale de haute qualité

Présentation de Qwen3-TTS

Qwen3-TTS est une série de modèles de génération vocale hautes performances développée par Qwen, qui intègre les fonctions de conception, clonage, génération et contrôle de la voix
- Il permet de contrôler le timbre, l’émotion, l’intonation, etc. via des commandes en langage naturel
- Accessible via la Qwen API et GitHub
Basé sur l’encodeur multi-codebook Qwen3-TTS-Tokenizer-12Hz, il assure une reconstruction vocale rapide et fidèle ainsi qu’une compression efficace
Le streaming bidirectionnel Dual-Track permet une sortie vocale en temps réel au niveau du caractère

L’ensemble est proposé en deux tailles : 1.7B et 0.6B
- 1.7B : performances maximales et fonctions de contrôle précises
- 0.6B : équilibre entre performances et efficacité
Les deux modèles prennent en charge le chinois, l’anglais, le japonais, le coréen, l’allemand, le français, le russe, le portugais, l’espagnol et l’italien
Clonage vocal rapide à partir de 3 secondes d’audio, également exploitable pour le fine-tuning (FT)

Grande expressivité vocale
- Qwen3-TTS-Tokenizer-12Hz effectue la modélisation sémantique de haut niveau et la compression des signaux acoustiques
- Préservation des informations non verbales et des sons ambiants, avec reconstruction rapide grâce à une architecture légère non-DiT
Architecture end-to-end à multi-codebook
- Élimine les goulets d’étranglement informationnels et l’accumulation d’erreurs des approches LM+DiT classiques
- Améliore la polyvalence du modèle, l’efficacité de génération et le plafond de performance
Synthèse en streaming à très faible latence
- L’architecture hybride Dual-Track prend en charge simultanément les modes streaming et non streaming
- Première sortie audio après la saisie d’un seul caractère, avec une latence de 97 ms
Compréhension intelligente du texte et contrôle vocal
- Contrôle multidimensionnel d’attributs comme le timbre, l’émotion et la prosodie à partir de commandes en langage naturel
- Ajustement automatique du ton et du rythme selon le sens du texte

Voice design : sur le benchmark InstructTTS-Eval, le modèle obtient de meilleures performances d’exécution des consignes et d’expressivité que MiniMax-Voice-Design
Contrôle vocal : en généralisation multilingue à locuteur unique, il enregistre un WER de 2,34 % et un score de contrôle de style de 75,4 %
- Même sur 10 minutes de synthèse continue, il maintient un WER de 2,36 % en chinois et de 2,81 % en anglais
Clonage vocal : sur Seed-tts-eval, il se montre plus stable que MiniMax et SeedTTS
- Moyenne sur 10 langues : WER de 1,835 %, similarité locuteur de 0,789, avec des performances supérieures à CosyVoice3

Atteint l’état de l’art sur l’ensemble LibriSpeech test-clean
- PESQ : large bande 3,21, bande étroite 3,68
- STOI : 0,96, UTMOS : 4,16
- Similarité locuteur de 0,95, soit une préservation des informations du locuteur proche du sans-perte

Possibilité de générer un timbre personnalisé à partir d’une description en langage naturel
- Contrôle fin d’attributs comme le genre, l’âge, l’émotion ou l’intonation
- Exemples : voix masculine autoritaire, voix féminine émotive, timbres selon l’âge, etc.
La fonction Timbre Reuse permet d’enregistrer et de réutiliser les timbres générés
- Utilisable pour des dialogues multi-locuteurs ou de longues narrations

Même après un fine-tuning par locuteur, il reste possible de conserver le timbre cible et de produire des énoncés multilingues
Prend en charge à la fois le contrôle d’attribut unique et multi-attributs
- Ex. : tristesse, colère, chuchotement, débit lent et autres réglages émotionnels fins
9 ensembles de timbres publics sont fournis
- Incluant le chinois, l’anglais, le japonais, le coréen et des dialectes
- Ex. : 苏瑶(Serena), 福伯(Uncle Fu), 十三(Vivian), 甜茶(Ryan), 素熙(Sohee), etc.

Clonage vocal rapide à partir de 3 secondes d’entrée audio
- En plus du clonage en chinois et en anglais, le clonage interlingue est pris en charge
- Ex. : production en japonais, en coréen et dans d’autres langues
Robustesse au bruit textuel
- Prononciation précise même pour des phrases contenant des symboles complexes, du pinyin ou des caractères spéciaux

Permet de reconstruire divers éléments acoustiques comme les dialectes, le chant, les sons non verbaux et les bruits de fond
La qualité de reconstruction démontre une haute fidélité par rapport à l’original