31 points par GN⁺ 2026-01-23 | 3 commentaires | Partager sur WhatsApp
  • Qwen3-TTS est une série de modèles multilingues de génération vocale prenant en charge le clonage vocal, le voice design, la génération de voix humanoïdes de très haute qualité et le contrôle en langage naturel
  • Prend en charge 10 langues majeures et divers dialectes, dont le chinois, l’anglais, le japonais et le coréen, et est proposé en deux tailles de modèle : 1.7B et 0.6B
  • Grâce à l’encodeur Qwen3-TTS-Tokenizer-12Hz développé en interne, les signaux vocaux sont compressés efficacement tout en préservant intégralement les informations non verbales et l’environnement acoustique
  • L’architecture de streaming Dual-Track produit immédiatement le premier paquet audio après la saisie d’un seul caractère et atteint une synthèse temps réel avec une latence de 97 ms
  • Avec sa publication en open source, développeurs et entreprises peuvent exploiter directement une technologie de génération vocale de haute qualité

Présentation de Qwen3-TTS

  • Qwen3-TTS est une série de modèles de génération vocale hautes performances développée par Qwen, qui intègre les fonctions de conception, clonage, génération et contrôle de la voix
    • Il permet de contrôler le timbre, l’émotion, l’intonation, etc. via des commandes en langage naturel
    • Accessible via la Qwen API et GitHub
  • Basé sur l’encodeur multi-codebook Qwen3-TTS-Tokenizer-12Hz, il assure une reconstruction vocale rapide et fidèle ainsi qu’une compression efficace
  • Le streaming bidirectionnel Dual-Track permet une sortie vocale en temps réel au niveau du caractère

Composition des modèles

  • L’ensemble est proposé en deux tailles : 1.7B et 0.6B
    • 1.7B : performances maximales et fonctions de contrôle précises
    • 0.6B : équilibre entre performances et efficacité
  • Les deux modèles prennent en charge le chinois, l’anglais, le japonais, le coréen, l’allemand, le français, le russe, le portugais, l’espagnol et l’italien
  • Clonage vocal rapide à partir de 3 secondes d’audio, également exploitable pour le fine-tuning (FT)

Principales caractéristiques techniques

  • Grande expressivité vocale
    • Qwen3-TTS-Tokenizer-12Hz effectue la modélisation sémantique de haut niveau et la compression des signaux acoustiques
    • Préservation des informations non verbales et des sons ambiants, avec reconstruction rapide grâce à une architecture légère non-DiT
  • Architecture end-to-end à multi-codebook
    • Élimine les goulets d’étranglement informationnels et l’accumulation d’erreurs des approches LM+DiT classiques
    • Améliore la polyvalence du modèle, l’efficacité de génération et le plafond de performance
  • Synthèse en streaming à très faible latence
    • L’architecture hybride Dual-Track prend en charge simultanément les modes streaming et non streaming
    • Première sortie audio après la saisie d’un seul caractère, avec une latence de 97 ms
  • Compréhension intelligente du texte et contrôle vocal
    • Contrôle multidimensionnel d’attributs comme le timbre, l’émotion et la prosodie à partir de commandes en langage naturel
    • Ajustement automatique du ton et du rythme selon le sens du texte

Évaluation des performances du modèle

  • Voice design : sur le benchmark InstructTTS-Eval, le modèle obtient de meilleures performances d’exécution des consignes et d’expressivité que MiniMax-Voice-Design
  • Contrôle vocal : en généralisation multilingue à locuteur unique, il enregistre un WER de 2,34 % et un score de contrôle de style de 75,4 %
    • Même sur 10 minutes de synthèse continue, il maintient un WER de 2,36 % en chinois et de 2,81 % en anglais
  • Clonage vocal : sur Seed-tts-eval, il se montre plus stable que MiniMax et SeedTTS
    • Moyenne sur 10 langues : WER de 1,835 %, similarité locuteur de 0,789, avec des performances supérieures à CosyVoice3

Performances du tokenizer

  • Atteint l’état de l’art sur l’ensemble LibriSpeech test-clean
    • PESQ : large bande 3,21, bande étroite 3,68
    • STOI : 0,96, UTMOS : 4,16
    • Similarité locuteur de 0,95, soit une préservation des informations du locuteur proche du sans-perte

Voice design et exemples

  • Possibilité de générer un timbre personnalisé à partir d’une description en langage naturel
    • Contrôle fin d’attributs comme le genre, l’âge, l’émotion ou l’intonation
    • Exemples : voix masculine autoritaire, voix féminine émotive, timbres selon l’âge, etc.
  • La fonction Timbre Reuse permet d’enregistrer et de réutiliser les timbres générés
    • Utilisable pour des dialogues multi-locuteurs ou de longues narrations

CustomVoice et contrôle du timbre

  • Même après un fine-tuning par locuteur, il reste possible de conserver le timbre cible et de produire des énoncés multilingues
  • Prend en charge à la fois le contrôle d’attribut unique et multi-attributs
    • Ex. : tristesse, colère, chuchotement, débit lent et autres réglages émotionnels fins
  • 9 ensembles de timbres publics sont fournis
    • Incluant le chinois, l’anglais, le japonais, le coréen et des dialectes
    • Ex. : 苏瑶(Serena), 福伯(Uncle Fu), 十三(Vivian), 甜茶(Ryan), 素熙(Sohee), etc.

Voice Clone et clonage multilingue

  • Clonage vocal rapide à partir de 3 secondes d’entrée audio
    • En plus du clonage en chinois et en anglais, le clonage interlingue est pris en charge
    • Ex. : production en japonais, en coréen et dans d’autres langues
  • Robustesse au bruit textuel
    • Prononciation précise même pour des phrases contenant des symboles complexes, du pinyin ou des caractères spéciaux

Reconstruction audio basée sur le tokenizer

  • Permet de reconstruire divers éléments acoustiques comme les dialectes, le chant, les sons non verbaux et les bruits de fond
  • La qualité de reconstruction démontre une haute fidélité par rapport à l’original

3 commentaires

 
sudosudo 2026-01-24

Ça tourne même sur un vieux portable.

 
xguru 2026-01-23

Moi aussi, en ce moment, j’utilise vraiment beaucoup de modèles basés sur Qwen en local.
Au début, je me disais que c’était sans doute parce que c’était un modèle d’Alibaba, mais c’est impressionnant de voir à quel point ils continuent de l’améliorer et de l’étendre.

 
GN⁺ 2026-01-23
Commentaires sur Hacker News
  • Je l’ai fait tourner sur macOS avec mlx-audio. C’était possible grâce au tweet de Prince Canuma
    Le script que j’ai utilisé est ici
    Avec uv, ça télécharge d’abord le modèle de 4.5GB. Exemple de commande :
    uv run https://tools.simonwillison.net/python/q3_tts.py 'I am a pirate, give me your gold!' -i 'gruff voice' -o pirate.wav

    • Vraiment excellent. Encore une victoire pour uv
  • Si vous voulez essayer vous-même le voice cloning, c’est possible dans la démo Hugging Face
    Allez dans l’onglet "Voice Clone", collez le texte d’exemple, enregistrez votre voix avec le micro, puis saisissez un autre texte pour générer une version lue avec votre propre voix
    J’ai partagé l’échantillon audio que j’ai généré ici

    • Honnêtement, ça fait un peu peur. Avec z-image-turbo, il faut désormais partir du principe que tout ce qu’on voit à l’écran peut être faux. Nous sommes entrés dans une époque où rien n’est fiable sans vérification cryptographique
    • La démo HF était surchargée, mais en local ça fonctionnait bien. Le modèle 1.7B reproduit bien le ton du locuteur, mais manque de variations d’intonation, donc le rendu sonne monotone. C’est peut-être parce que la démo n’expose pas le contrôle d’expressivité. Cela dit, la gestion du bruit était bien meilleure que sur le 0.6B. Sans FlashAttention, c’était lent, autour de 0.3x en vitesse réelle sur un GPU 5090, mais la qualité était impressionnante
    • Une technologie étonnante. Ma voix clonée ressemblait vraiment à la mienne. Il y aura sans doute de bons comme de mauvais usages — de la grand-mère disparue qui lit des histoires à ses petits-enfants, jusqu’aux arnaques ou à la production automatisée de podcasts
    • Difficile d’évaluer les performances du clonage avec seulement l’enregistrement publié. Il faudrait aussi avoir un échantillon de la voix originale
    • C’était amusant à tester. Si j’enregistre quelques minutes de ma voix, je pourrais peut-être un jour créer un livre audio où je me lis un livre à moi-même
  • Modèle intéressant. J’ai fait tourner le modèle 0.6B sur une 1080, et il pouvait générer par blocs de 200 caractères sans OOM. J’ai essayé de faire un livre audio du Tao Te King, mais le résultat changeait à chaque fois, comme une roulette magique. Certaines parties étaient claires, d’autres riaient ou gémissaient, avec des émotions très irrégulières. La voix Ryan était la plus stable, et Eric sonnait comme un accent chinois exagéré. Si l’émotion avait été constante, ce serait le meilleur TTS que j’aie utilisé jusqu’ici

    • As-tu essayé de définir l’émotion manuellement ? Si tu laisses vide, c’est peut-être réglé sur une émotion aléatoire (rng)
    • Je serais curieux de connaître le RTF (ratio temps réel) sur une 1080. Je vérifie si le modèle 0.6B peut faire de l’inférence en temps réel sur un edge device
  • J’aimerais demander à l’équipe Qwen de sortir un modèle qui dépasse les capacités de code d’Opus 4.5. J’aime bien leurs modèles, mais je n’aime pas le leadership fermé de cette entreprise ni son caractère politiquement clivant

    • C’est peut-être le commentaire qu’ils attendaient
    • J’ai le même problème (je suis Danois). J’ai testé avec Open Code et Minimax m2.1 (10 dollars par mois), et ça marchait plutôt bien. GLM 4.7 est excellent aussi. Il y a une comparaison détaillée dans cet article. Pas besoin d’envoyer de l’argent à une entreprise que vous n’aimez pas
    • Je me demande ce que veut dire exactement « politiquement clivant »
    • J’obtiens de bons résultats avec GLM 4.7. Je fais tourner deux comptes max 24/7, et je délègue une partie de la revue de code à Claude. Si le coût est le problème, GLM 4.7 est un bon choix
    • Je voulais demander si tu avais essayé le nouveau GLM 4.7
  • Ça faisait longtemps qu’une technologie n’avait pas progressé à ce point de manière aussi glaçante. J’utilise l’IA TTS depuis 2018, mais c’est le premier modèle qui me donne l’impression qu’on peut restaurer d’anciens feuilletons radio. Par exemple, reconstruire à partir du contexte certaines répliques perdues à cause de bandes abîmées. On pourrait peut-être redonner vie à des dizaines d’heures d’audio d’acteurs comme Bob Bailey

    • Les extraits que j’ai entendus ressemblaient à du doublage d’anime dans le style Miyazaki. Je me demande si le modèle a été entraîné sur ce type de données
    • Moi aussi, je prévois un projet pour restaurer des épisodes radio de “Have Gun - Will Travel”. Si on pouvait reconstituer des passages difficiles à comprendre à cause de détériorations de bande ou d’interférences sonores, ce serait vraiment incroyable. Bien sûr, le potentiel d’abus est énorme aussi
  • Je me demande si quelqu’un l’a fait tourner sur Mac. Le guide d’installation part du principe qu’on a un GPU NVIDIA (CUDA, FlashAttention), donc je ne sais pas si ça fonctionne avec le backend PyTorch Metal/MPS

    • On peut l’exécuter sans FlashAttention avec l’option --no-flash-attn. C’est comme ça que je le fais aussi sous Windows
    • Je recommande d’utiliser modal pour louer un environnement Metal
    • À cause de la dépendance à FlashAttention, ce n’est pas possible pour l’instant. J’espère que quelqu’un fera un portage vers Metal
  • Le dernier exemple de Age Control était réglé sur « accent américain », mais à mon oreille, ça ressemblait plutôt à un Australien qui imite un accent américain

  • Ça semble vraiment bien adapté à la production de livres audio. Les anciens TTS IA manquaient encore de naturel

  • Le secteur du doublage vocal commence maintenant à cuire à petit feu. Certaines démos montraient des voix bien plus abouties que celles de certains doubleurs indépendants

  • Je m’inquiète qu’un jour ma grand-mère se fasse arnaquer avec ça

    • Jusqu’ici, ça ressemble surtout au principal cas d’usage
    • Mais les grands-mères d’aujourd’hui sont de la génération QVC et voyantes par téléphone, donc elles se feront peut-être moins facilement avoir par ce genre de choses désormais