VibeVoice - Le modèle open source de synthèse vocale de nouvelle génération de Microsoft

(microsoft.github.io)

5 points par GN⁺ 2025-09-04 | 1 commentaires | Partager sur WhatsApp

Nouveau modèle TTS conçu pour générer, à partir de texte, des dialogues vocaux naturels de longue durée avec plusieurs locuteurs
Conçu pour résoudre les limites des systèmes existants en matière de scalabilité, cohérence des locuteurs et transitions naturelles entre les tours de parole
Peut synthétiser jusqu'à 90 minutes d'audio avec jusqu'à 4 locuteurs simultanément, dépassant les modèles précédents limités à 1 ou 2 personnes
Son point clé est l'utilisation d'un tokenizer vocal continu à très faible fréquence d'images de 7,5 Hz (Acoustic/Semantic), qui traite efficacement de longues séquences audio tout en maintenant la qualité sonore
Exploite une approche Next-Token Diffusion pour modéliser efficacement les données continues, et introduit pour cela un nouveau tokenizer vocal continu offrant un taux de compression 80 fois supérieur à Encodec

Présentation

Ces dernières années, les technologies TTS ont réussi à synthétiser avec une haute qualité de courtes phrases prononcées par un seul locuteur, mais la synthèse de dialogues longs et multi-locuteurs reste un défi
- Les approches existantes se contentent souvent d'assembler les énoncés, ce qui produit des transitions peu naturelles
- Il est difficile de générer un enchaînement naturel des tours de parole et une production tenant compte du contexte
Objectif : prendre en charge la synthèse vocale de conversations longues avec plusieurs locuteurs, comme des podcasts
Pour y répondre, VibeVoice combine un tokenizer vocal à fréquence d'images ultra-faible (7,5 Hz) et une architecture de diffusion basée sur un LLM
Il devient ainsi possible de synthétiser de manière stable des contenus audio multi-locuteurs d'une durée allant jusqu'à 90 minutes

Innovations techniques

Tokenizer vocal continu (7,5 Hz) :
- Utilisation conjointe de tokenizers Acoustic et Semantic
- Garantit l'efficacité du traitement des longues séquences tout en préservant la fidélité audio
Framework de next-token diffusion :
- Le LLM comprend le contexte textuel et le déroulement de la conversation
- La tête de diffusion génère des détails acoustiques haute résolution
Résultat : une synthèse vocale plus naturelle et plus humaine qu'auparavant

Performances

Synthèse possible de 90 minutes d'audio au maximum
Prise en charge de jusqu'à 4 locuteurs (au-delà de la limite de 1 à 2 des modèles précédents)
Fournit une voix expressive et cohérente dans diverses situations de dialogue

Résultats expérimentaux

Synthèse de dialogues longs (Podcast)

Évaluation sur un jeu de données de conversations d'une heure
Mesure de WER (taux d'erreur sur les mots), SIM (similarité des locuteurs) et évaluation subjective (MOS)
VIBEVOICE-7B obtient les meilleurs résultats avec Realism 3.71, Richness 3.81, Preference 3.75
Surpasse des modèles récents comme Gemini 2.5 Pro et ElevenLabs v3

Conclusion et limites

VibeVoice est un framework TTS de nouvelle génération prenant en charge la synthèse naturelle de conversations avec jusqu'à 90 minutes et 4 locuteurs
Il offre une qualité subjective et objective supérieure aux modèles open source et commerciaux existants
Limites :
- Les langues autres que l'anglais et le chinois peuvent produire des résultats imprévisibles
- Les audios non vocaux (bruit de fond, musique) ne sont pas pris en charge
- La parole simultanée (Overlapping Speech) n'est pas prise en charge
- Il existe un risque d'usage abusif pour des deepfakes ou de la désinformation
En conséquence, le modèle est pour l'instant réservé à la recherche et au développement, et son usage commercial n'est pas recommandé

1 commentaires

GN⁺ 2025-09-04

Avis Hacker News

Après avoir vu plusieurs commentaires vanter le réalisme de ce modèle vocal, j’ai visité la page avec beaucoup d’attentes, mais en l’écoutant, j’ai eu une impression complètement différente. La qualité audio en elle-même était correcte, mais l’intonation semblait étrange dans la plupart des phrases, avec un caractère clairement mécanique. C’est assez impressionnant comparé aux TTS d’il y a quelques années, mais face aux voix IA actuelles, ce n’est pas très marquant. En particulier, j’ai l’impression que même les voix IA qu’on entend souvent sur YouTube Shorts sont au moins aussi bonnes que la plupart des échantillons de ce site. La seule chose qui m’a vraiment impressionné, c’était les échantillons en anglais et en chinois (probablement mandarin), avec un passage très naturel entre les deux langues. Mais comme je ne connais pas bien le chinois, je ne peux pas vraiment juger la prononciation, et le changement est peut-être aussi plus facile parce qu’on distingue clairement les caractères chinois de l’alphabet latin. Je suppose qu’avec deux langues utilisant le même système d’écriture, ce ne serait peut-être pas aussi naturel. Enfin, les échantillons de chant étaient assez pénibles à écouter, et je me demande vraiment pourquoi ils ont été ajoutés
- La remarque de l’équipe sur le chant et la musique de fond me paraît un peu étrange. J’ai fortement eu l’impression qu’ils n’avaient pas trouvé de méthode pour retirer la musique de fond avant la deadline de l’article, et qu’ils ont simplement essayé de présenter ça comme une « fonctionnalité ». Je n’ai pas l’impression que cela ait été ajouté comme un vrai élément différenciant
- Si quelqu’un connaît un meilleur modèle TTS que celui-ci, j’aimerais bien une recommandation. Il y a toujours des gens qui exagèrent les progrès, et d’autres qui les minimisent, mais je ne pense pas que ni l’un ni l’autre empêchent les avancées. Parmi les modèles que j’ai écoutés jusqu’ici, c’est le meilleur, mais il en existe peut-être un encore meilleur que je ne connais pas
- Ce modèle est plutôt bon, mais ce n’est pas le meilleur parmi les modèles gratuits. Chatterbox est plus réaliste, beaucoup moins mécanique, et son intonation est plus naturelle aussi (même si ce n’est pas parfait)
- Je trouve que les voix féminines sont bien plus naturelles et convaincantes que les voix masculines. En comparaison, les voix masculines ne sont guère meilleures que les TTS d’il y a 10 ans
- La vraie force de ce modèle, c’est le clonage vocal. Si vous mettez un échantillon de votre propre voix dans le dossier voices, ça fonctionne vraiment bien
J’espère vraiment que, chez Microsoft, ils appelleront leur agent de code open source Microsoft VibeCode. Sinon, ils pourraient l’appeler « Lo » et l’utiliser avec Phi. Comme ça, on pourrait vibe coder avec « Lo Phi ». Infos sur le modèle de langage Phi 4 de Microsoft
- Vu l’historique marketing de Microsoft, je pense qu’au final ce sera soit un nom explicite du genre "Microsoft Copilot Code Generator for VSCode", soit quelque chose qui sort de nulle part comme "Zunega"
- Une idée de génie
VibeVoice-Large est le premier TTS local à prendre en charge la prononciation du finnois de façon vraiment naturelle, presque sans accent. Je l’ai testé moi-même hier, et j’ai été particulièrement impressionné par le clonage vocal et même la reproduction des émotions
Techniquement, c’est d’assez haute qualité, mais surtout du côté des voix masculines, on a immédiatement l’impression d’entendre une voix générée par IA. Je n’ai pas assez de connaissances audio pour bien expliquer pourquoi
- Je ne suis pas ingénieur du son non plus, mais cette voix IA me donne une impression de forme d’onde en « dent de scie ». Les modèles basiques ou les techniques limitées sous-échantillonnent davantage, donc il y a une sorte de pulsation audio qui laisse une impression de vibration mécanique. Avec de meilleurs modèles, la forme d’onde devient plus douce. Référence sur les formes d’onde
- Pour moi, le timbre semble découpé en blocs, et si on visualisait le son, on dirait qu’il manque de rondeur dans la forme d’onde, avec une résonance de boîte métallique
- En l’écoutant moi-même, j’ai compris ce que tu voulais dire. Par moments, la voix tremble ou donne l’impression d’un mp3 très compressé
Les voix masculines paraissent beaucoup plus artificielles que les voix féminines, au point de sembler presque robotiques. Quand on voit que la plupart des échantillons officiels commencent par des voix féminines, on comprend que l’équipe de développement est au courant du problème
- J’ai eu la même impression. Les voix masculines sonnent clairement plus artificielles
Je me demande s’il existe un classement ou une liste populaire et à jour des modèles TTS open weight. En réalité, je m’intéresse davantage au STT (ASR), mais il y a trop peu d’options
- On peut regarder la liste des modèles TTS sur huggingface. Les modèles qui montent dans les tendances valent généralement le détour. Comme les critères d’évaluation sont très subjectifs, le plus important est de les écouter soi-même. Pour les modèles qui ne montent pas dans les tendances sur HF, il y a de fortes chances qu’ils ne soient pas très bons
- Les meilleurs TTS qu’on peut citer sont : VibeVoice, Chatterbox, Dia, Higgs, F5 TTS, Kokoro, Cosy Voice et XTTS-2
- Cliquez sur leaderboard dans le menu hamburger pour accéder à la page de classement TTS-AGI/TTS-Arena-V2
- C’est le top
Pour les utilisateurs avec un GPU peu puissant, ce modèle est difficile à utiliser. Je n’ai pas réussi à le faire tourner correctement sur une vieille 1080, et sur CPU avec torch.float32, il fallait 832 secondes pour générer 66 secondes d’audio. En passant à torch.bfloat16, d’étranges bruits parasites sont apparus dans l’audio. Jusqu’à présent, le modèle TTS le plus utilisable dans des conditions de GPU limité restait Kokoro. De plus, comme quelqu’un l’a mentionné dans ce fil, il n’existe pas encore de fonction permettant de contrôler finement la sortie TTS en ajoutant des annotations séparées au texte. Je pense qu’une direction possible pour améliorer encore ce type de modèle serait d’ajouter une étape intermédiaire au texte pour générer des annotations, puis de les injecter dans le TTS. Cela permettrait aux utilisateurs de contrôler le résultat plus finement
- Je trouve que c’est très exagéré. macOS prend déjà en charge depuis longtemps un TTS immédiat et d’assez bonne qualité, sans avoir besoin de ces modèles lourds. Il n’y a aucune latence. Je trouve que cette folie autour de l’« IA » va vraiment trop loin
Puisque c’est censé être open source, je me demande pourquoi les données d’entraînement ne sont pas publiées
- La plupart des données collectées par crawling comportent de nombreux risques juridiques liés au droit d’auteur, aux conditions d’utilisation, à la vie privée, etc., donc pour une entreprise commerciale, ce n’est pas très judicieux de les rendre complètement « ouvertes »
Le dialogue d’exemple Spontaneous Emotion donne l’impression d’une voix où l’équipe essaie de faire « déborder » les émotions avec un LLM. Les échantillons de chant auraient mieux fait d’être omis. Le modèle n’est pas du tout adapté au chant pour l’instant
- Ce chant m’a donné envie de réécouter ça. C’est vraiment un morceau remarquable pour susciter l’émotion. Les robots ont encore du chemin à faire avant de chanter correctement
Les deux modèles TTS actuellement considérés comme les meilleurs sont HiggsAudio et VibeVoice. Personnellement, j’ai trouvé Higgs largement supérieur à Vibe, aussi bien en vitesse qu’en qualité sonore. Je ne sais pas trop pour l’expressivité, mais je recommande vraiment de ne pas passer à côté

VibeVoice - Le modèle open source de synthèse vocale de nouvelle génération de Microsoft

Présentation

Innovations techniques

Performances

Résultats expérimentaux

Synthèse de dialogues longs (Podcast)

Conclusion et limites

À lire aussi

1 commentaires

Avis Hacker News