- Qwen3-TTS est une série de modèles multilingues de génération vocale prenant en charge le clonage vocal, le voice design, la génération de voix humanoïdes de très haute qualité et le contrôle en langage naturel
- Prend en charge 10 langues majeures et divers dialectes, dont le chinois, l’anglais, le japonais et le coréen, et est proposé en deux tailles de modèle : 1.7B et 0.6B
- Grâce à l’encodeur Qwen3-TTS-Tokenizer-12Hz développé en interne, les signaux vocaux sont compressés efficacement tout en préservant intégralement les informations non verbales et l’environnement acoustique
- L’architecture de streaming Dual-Track produit immédiatement le premier paquet audio après la saisie d’un seul caractère et atteint une synthèse temps réel avec une latence de 97 ms
- Avec sa publication en open source, développeurs et entreprises peuvent exploiter directement une technologie de génération vocale de haute qualité
Présentation de Qwen3-TTS
- Qwen3-TTS est une série de modèles de génération vocale hautes performances développée par Qwen, qui intègre les fonctions de conception, clonage, génération et contrôle de la voix
- Il permet de contrôler le timbre, l’émotion, l’intonation, etc. via des commandes en langage naturel
- Accessible via la Qwen API et GitHub
- Basé sur l’encodeur multi-codebook Qwen3-TTS-Tokenizer-12Hz, il assure une reconstruction vocale rapide et fidèle ainsi qu’une compression efficace
- Le streaming bidirectionnel Dual-Track permet une sortie vocale en temps réel au niveau du caractère
Composition des modèles
- L’ensemble est proposé en deux tailles : 1.7B et 0.6B
- 1.7B : performances maximales et fonctions de contrôle précises
- 0.6B : équilibre entre performances et efficacité
- Les deux modèles prennent en charge le chinois, l’anglais, le japonais, le coréen, l’allemand, le français, le russe, le portugais, l’espagnol et l’italien
- Clonage vocal rapide à partir de 3 secondes d’audio, également exploitable pour le fine-tuning (FT)
Principales caractéristiques techniques
- Grande expressivité vocale
- Qwen3-TTS-Tokenizer-12Hz effectue la modélisation sémantique de haut niveau et la compression des signaux acoustiques
- Préservation des informations non verbales et des sons ambiants, avec reconstruction rapide grâce à une architecture légère non-DiT
- Architecture end-to-end à multi-codebook
- Élimine les goulets d’étranglement informationnels et l’accumulation d’erreurs des approches LM+DiT classiques
- Améliore la polyvalence du modèle, l’efficacité de génération et le plafond de performance
- Synthèse en streaming à très faible latence
- L’architecture hybride Dual-Track prend en charge simultanément les modes streaming et non streaming
- Première sortie audio après la saisie d’un seul caractère, avec une latence de 97 ms
- Compréhension intelligente du texte et contrôle vocal
- Contrôle multidimensionnel d’attributs comme le timbre, l’émotion et la prosodie à partir de commandes en langage naturel
- Ajustement automatique du ton et du rythme selon le sens du texte
Évaluation des performances du modèle
- Voice design : sur le benchmark InstructTTS-Eval, le modèle obtient de meilleures performances d’exécution des consignes et d’expressivité que MiniMax-Voice-Design
- Contrôle vocal : en généralisation multilingue à locuteur unique, il enregistre un WER de 2,34 % et un score de contrôle de style de 75,4 %
- Même sur 10 minutes de synthèse continue, il maintient un WER de 2,36 % en chinois et de 2,81 % en anglais
- Clonage vocal : sur Seed-tts-eval, il se montre plus stable que MiniMax et SeedTTS
- Moyenne sur 10 langues : WER de 1,835 %, similarité locuteur de 0,789, avec des performances supérieures à CosyVoice3
Performances du tokenizer
- Atteint l’état de l’art sur l’ensemble LibriSpeech test-clean
- PESQ : large bande 3,21, bande étroite 3,68
- STOI : 0,96, UTMOS : 4,16
- Similarité locuteur de 0,95, soit une préservation des informations du locuteur proche du sans-perte
Voice design et exemples
- Possibilité de générer un timbre personnalisé à partir d’une description en langage naturel
- Contrôle fin d’attributs comme le genre, l’âge, l’émotion ou l’intonation
- Exemples : voix masculine autoritaire, voix féminine émotive, timbres selon l’âge, etc.
- La fonction Timbre Reuse permet d’enregistrer et de réutiliser les timbres générés
- Utilisable pour des dialogues multi-locuteurs ou de longues narrations
CustomVoice et contrôle du timbre
- Même après un fine-tuning par locuteur, il reste possible de conserver le timbre cible et de produire des énoncés multilingues
- Prend en charge à la fois le contrôle d’attribut unique et multi-attributs
- Ex. : tristesse, colère, chuchotement, débit lent et autres réglages émotionnels fins
- 9 ensembles de timbres publics sont fournis
- Incluant le chinois, l’anglais, le japonais, le coréen et des dialectes
- Ex. : 苏瑶(Serena), 福伯(Uncle Fu), 十三(Vivian), 甜茶(Ryan), 素熙(Sohee), etc.
Voice Clone et clonage multilingue
- Clonage vocal rapide à partir de 3 secondes d’entrée audio
- En plus du clonage en chinois et en anglais, le clonage interlingue est pris en charge
- Ex. : production en japonais, en coréen et dans d’autres langues
- Robustesse au bruit textuel
- Prononciation précise même pour des phrases contenant des symboles complexes, du pinyin ou des caractères spéciaux
Reconstruction audio basée sur le tokenizer
- Permet de reconstruire divers éléments acoustiques comme les dialectes, le chant, les sons non verbaux et les bruits de fond
- La qualité de reconstruction démontre une haute fidélité par rapport à l’original
3 commentaires
Ça tourne même sur un vieux portable.
Moi aussi, en ce moment, j’utilise vraiment beaucoup de modèles basés sur Qwen en local.
Au début, je me disais que c’était sans doute parce que c’était un modèle d’Alibaba, mais c’est impressionnant de voir à quel point ils continuent de l’améliorer et de l’étendre.
Commentaires sur Hacker News
Je l’ai fait tourner sur macOS avec mlx-audio. C’était possible grâce au tweet de Prince Canuma
Le script que j’ai utilisé est ici
Avec
uv, ça télécharge d’abord le modèle de 4.5GB. Exemple de commande :uv run https://tools.simonwillison.net/python/q3_tts.py 'I am a pirate, give me your gold!' -i 'gruff voice' -o pirate.wavSi vous voulez essayer vous-même le voice cloning, c’est possible dans la démo Hugging Face
Allez dans l’onglet "Voice Clone", collez le texte d’exemple, enregistrez votre voix avec le micro, puis saisissez un autre texte pour générer une version lue avec votre propre voix
J’ai partagé l’échantillon audio que j’ai généré ici
Modèle intéressant. J’ai fait tourner le modèle 0.6B sur une 1080, et il pouvait générer par blocs de 200 caractères sans OOM. J’ai essayé de faire un livre audio du Tao Te King, mais le résultat changeait à chaque fois, comme une roulette magique. Certaines parties étaient claires, d’autres riaient ou gémissaient, avec des émotions très irrégulières. La voix Ryan était la plus stable, et Eric sonnait comme un accent chinois exagéré. Si l’émotion avait été constante, ce serait le meilleur TTS que j’aie utilisé jusqu’ici
J’aimerais demander à l’équipe Qwen de sortir un modèle qui dépasse les capacités de code d’Opus 4.5. J’aime bien leurs modèles, mais je n’aime pas le leadership fermé de cette entreprise ni son caractère politiquement clivant
Ça faisait longtemps qu’une technologie n’avait pas progressé à ce point de manière aussi glaçante. J’utilise l’IA TTS depuis 2018, mais c’est le premier modèle qui me donne l’impression qu’on peut restaurer d’anciens feuilletons radio. Par exemple, reconstruire à partir du contexte certaines répliques perdues à cause de bandes abîmées. On pourrait peut-être redonner vie à des dizaines d’heures d’audio d’acteurs comme Bob Bailey
Je me demande si quelqu’un l’a fait tourner sur Mac. Le guide d’installation part du principe qu’on a un GPU NVIDIA (CUDA, FlashAttention), donc je ne sais pas si ça fonctionne avec le backend PyTorch Metal/MPS
--no-flash-attn. C’est comme ça que je le fais aussi sous WindowsLe dernier exemple de Age Control était réglé sur « accent américain », mais à mon oreille, ça ressemblait plutôt à un Australien qui imite un accent américain
Ça semble vraiment bien adapté à la production de livres audio. Les anciens TTS IA manquaient encore de naturel
Le secteur du doublage vocal commence maintenant à cuire à petit feu. Certaines démos montraient des voix bien plus abouties que celles de certains doubleurs indépendants
Je m’inquiète qu’un jour ma grand-mère se fasse arnaquer avec ça