31 points par GN⁺ 2026-01-23 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Qwen3-TTS est une série de modèles multilingues de génération vocale prenant en charge le clonage vocal, le voice design, la génération de voix humanoïdes de très haute qualité et le contrôle en langage naturel
  • Prend en charge 10 langues majeures et divers dialectes, dont le chinois, l’anglais, le japonais et le coréen, et est proposé en deux tailles de modèle : 1.7B et 0.6B
  • Grâce à l’encodeur Qwen3-TTS-Tokenizer-12Hz développé en interne, les signaux vocaux sont compressés efficacement tout en préservant intégralement les informations non verbales et l’environnement acoustique
  • L’architecture de streaming Dual-Track produit immédiatement le premier paquet audio après la saisie d’un seul caractère et atteint une synthèse temps réel avec une latence de 97 ms
  • Avec sa publication en open source, développeurs et entreprises peuvent exploiter directement une technologie de génération vocale de haute qualité

Présentation de Qwen3-TTS

  • Qwen3-TTS est une série de modèles de génération vocale hautes performances développée par Qwen, qui intègre les fonctions de conception, clonage, génération et contrôle de la voix
    • Il permet de contrôler le timbre, l’émotion, l’intonation, etc. via des commandes en langage naturel
    • Accessible via la Qwen API et GitHub
  • Basé sur l’encodeur multi-codebook Qwen3-TTS-Tokenizer-12Hz, il assure une reconstruction vocale rapide et fidèle ainsi qu’une compression efficace
  • Le streaming bidirectionnel Dual-Track permet une sortie vocale en temps réel au niveau du caractère

Composition des modèles

  • L’ensemble est proposé en deux tailles : 1.7B et 0.6B
    • 1.7B : performances maximales et fonctions de contrôle précises
    • 0.6B : équilibre entre performances et efficacité
  • Les deux modèles prennent en charge le chinois, l’anglais, le japonais, le coréen, l’allemand, le français, le russe, le portugais, l’espagnol et l’italien
  • Clonage vocal rapide à partir de 3 secondes d’audio, également exploitable pour le fine-tuning (FT)

Principales caractéristiques techniques

  • Grande expressivité vocale
    • Qwen3-TTS-Tokenizer-12Hz effectue la modélisation sémantique de haut niveau et la compression des signaux acoustiques
    • Préservation des informations non verbales et des sons ambiants, avec reconstruction rapide grâce à une architecture légère non-DiT
  • Architecture end-to-end à multi-codebook
    • Élimine les goulets d’étranglement informationnels et l’accumulation d’erreurs des approches LM+DiT classiques
    • Améliore la polyvalence du modèle, l’efficacité de génération et le plafond de performance
  • Synthèse en streaming à très faible latence
    • L’architecture hybride Dual-Track prend en charge simultanément les modes streaming et non streaming
    • Première sortie audio après la saisie d’un seul caractère, avec une latence de 97 ms
  • Compréhension intelligente du texte et contrôle vocal
    • Contrôle multidimensionnel d’attributs comme le timbre, l’émotion et la prosodie à partir de commandes en langage naturel
    • Ajustement automatique du ton et du rythme selon le sens du texte

Évaluation des performances du modèle

  • Voice design : sur le benchmark InstructTTS-Eval, le modèle obtient de meilleures performances d’exécution des consignes et d’expressivité que MiniMax-Voice-Design
  • Contrôle vocal : en généralisation multilingue à locuteur unique, il enregistre un WER de 2,34 % et un score de contrôle de style de 75,4 %
    • Même sur 10 minutes de synthèse continue, il maintient un WER de 2,36 % en chinois et de 2,81 % en anglais
  • Clonage vocal : sur Seed-tts-eval, il se montre plus stable que MiniMax et SeedTTS
    • Moyenne sur 10 langues : WER de 1,835 %, similarité locuteur de 0,789, avec des performances supérieures à CosyVoice3

Performances du tokenizer

  • Atteint l’état de l’art sur l’ensemble LibriSpeech test-clean
    • PESQ : large bande 3,21, bande étroite 3,68
    • STOI : 0,96, UTMOS : 4,16
    • Similarité locuteur de 0,95, soit une préservation des informations du locuteur proche du sans-perte

Voice design et exemples

  • Possibilité de générer un timbre personnalisé à partir d’une description en langage naturel
    • Contrôle fin d’attributs comme le genre, l’âge, l’émotion ou l’intonation
    • Exemples : voix masculine autoritaire, voix féminine émotive, timbres selon l’âge, etc.
  • La fonction Timbre Reuse permet d’enregistrer et de réutiliser les timbres générés
    • Utilisable pour des dialogues multi-locuteurs ou de longues narrations

CustomVoice et contrôle du timbre

  • Même après un fine-tuning par locuteur, il reste possible de conserver le timbre cible et de produire des énoncés multilingues
  • Prend en charge à la fois le contrôle d’attribut unique et multi-attributs
    • Ex. : tristesse, colère, chuchotement, débit lent et autres réglages émotionnels fins
  • 9 ensembles de timbres publics sont fournis
    • Incluant le chinois, l’anglais, le japonais, le coréen et des dialectes
    • Ex. : 苏瑶(Serena), 福伯(Uncle Fu), 十三(Vivian), 甜茶(Ryan), 素熙(Sohee), etc.

Voice Clone et clonage multilingue

  • Clonage vocal rapide à partir de 3 secondes d’entrée audio
    • En plus du clonage en chinois et en anglais, le clonage interlingue est pris en charge
    • Ex. : production en japonais, en coréen et dans d’autres langues
  • Robustesse au bruit textuel
    • Prononciation précise même pour des phrases contenant des symboles complexes, du pinyin ou des caractères spéciaux

Reconstruction audio basée sur le tokenizer

  • Permet de reconstruire divers éléments acoustiques comme les dialectes, le chant, les sons non verbaux et les bruits de fond
  • La qualité de reconstruction démontre une haute fidélité par rapport à l’original

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.