VibeVoice - l’avant-garde open source de l’IA vocale
(github.com/microsoft)- Une famille de modèles d’IA vocale intégrant à la fois TTS et ASR, couvrant aussi bien la génération de voix longue durée que la reconnaissance vocale sur de longues séquences
- L’architecture centrale combine un tokeniseur vocal continu à très faible fréquence d’images de 7,5 Hz et du next-token diffusion, afin de traiter de longues séquences tout en visant à la fois la qualité audio et l’efficacité de calcul
- La structure utilise un LLM pour comprendre le contexte textuel et le fil de la conversation, avec une tête de diffusion ajoutée pour générer des détails acoustiques de haute fidélité
- VibeVoice-ASR traite jusqu’à 60 minutes d’audio en un seul passage et produit une transcription structurée contenant à la fois les informations de locuteur, les horodatages et le contenu des énoncés
- Le modèle ASR prend en charge plus de 50 langues et peut recevoir des hotwords personnalisés ou des informations de contexte afin d’améliorer la précision de reconnaissance pour des domaines spécialisés
- Côté ASR, le code de finetuning et la prise en charge de l’inférence avec vLLM sont publiés, et le modèle peut aussi être utilisé directement dans la bibliothèque Hugging Face Transformers
- VibeVoice-TTS peut synthétiser jusqu’à 90 minutes d’audio en un seul passage et prend en charge jusqu’à 4 locuteurs dans une même conversation
- Le TTS met l’accent sur une voix conversationnelle expressive et la cohérence du locuteur, avec prise en charge de l’anglais, du chinois et d’autres langues
- Selon l’annonce du dépôt, le code de VibeVoice-TTS a été retiré ; il est précisé qu’après sa publication, des usages non conformes à l’intention déclarée ont été constatés, ce qui a conduit à sa suppression du dépôt
- VibeVoice-Realtime-0.5B est un modèle TTS temps réel de taille 0.5B, prenant en charge l’entrée de texte en streaming, une première latence audible d’environ 300 ms et la génération de voix longue durée d’environ 10 minutes
- Le modèle Realtime ajoute des locuteurs expérimentaux multilingues dans 9 langues ainsi que 11 voix de style anglais, et indique que davantage de types de voix seront ajoutés progressivement
- Les principales voies de distribution sont organisées autour des poids Hugging Face, d’un Playground et de Colab, ce qui permet des essais rapides
- Ce dépôt est présenté comme étant réservé à des fins de recherche et de développement ; son usage en production ou en conditions réelles sans tests ni développement supplémentaires n’est pas recommandé
- Les modèles peuvent hériter des biais et erreurs du modèle de base Qwen2.5 1.5b ; en raison des risques de deepfake, d’usurpation d’identité et de diffusion de fausses informations, un usage légal et responsable ainsi que la divulgation du caractère généré par l’IA sont recommandés
1 commentaires
Réactions sur Hacker News
Ce n’est même pas un nouveau modèle, et côté STT il hallucine beaucoup, l’inférence est lourde et lente, et les performances multilingues ne sont pas terribles
Je ne sais pas pour les autres fonctions, mais ici je parle uniquement de speech to text
Mais globalement, ça donne l’impression d’avoir été entraîné sur des données très bruitées, ça consomme plus de mémoire et ce n’est pas rapide
Je parle de vibevoice-community, la version 7B qui avait été publiée brièvement avant d’être retirée, et pour l’instant je continue d’utiliser chatterbox turbo et parfois qwen TTS
Même sur Twitter, on ne parle que de ça
Je l’ai utilisé quelques jours, et d’abord il n’y a pas de documentation pour le modèle 1.5B, tandis que le modèle realtime 0.5B était médiocre
Il convertissait le texte ligne par ligne, insérait aléatoirement de la musique, et ne gérait même pas correctement les caractères spéciaux comme
…Franchement, c’est assez décevant
J’ai immédiatement retiré mon étoile du repo et je vais passer mon tour
Il faudrait arrêter d’appeler ce genre de modèles open source
En réalité, ce sont seulement des open weight, le code d’entraînement est propriétaire et n’a jamais été publié
https://github.com/microsoft/VibeVoice/issues/102
Désolé, Stallman
Quand un projet est marqué open source, ce qui compte le plus pour moi, c’est ce que je peux réellement faire avec
La distinction open source vs open weight semble désormais relever de la même catégorie que hacker/cracker ou les débats sur la prononciation de GIF
Ça veut simplement dire que je n’y ai pas accès, pas que la licence elle-même n’est pas MIT
Cela dit, je suis entièrement d’accord sur le fait que Microsoft exagère ici l’ouverture, et ce n’est pas vraiment surprenant
Les données d’entraînement non publiques me dérangent aussi, mais les licences restrictives me dérangent davantage
Dans cette catégorie, Voxtral me paraît bien meilleur
Et en plus, il est assez petit pour tourner sur webGPU
https://huggingface.co/spaces/mistralai/Voxtral-Realtime-WebGPU
Kevin Beaumont a publié quelque chose d’intéressant sur ce repo/produit/auteur
https://cyberplace.social/@GossiTheDog/116454846703138243
J’ai l’impression que c’est ce projet que Microsoft avait publié puis retiré peu après pour des raisons de sécurité/sûreté
Je me demande ce qui a changé depuis
Le modèle TTS d’origine a disparu de ce repo, mais on peut encore le trouver ailleurs
À la place, les modèles SST/ASR, long form TTS et streaming TTS sont plus récents
Parce que ce projet couvre plusieurs domaines à la fois, y compris ceux qui viennent d’être mentionnés
C’est intéressant de voir une entreprise comme Microsoft officialiser vibe comme terme produit pour l’IA
Mon speech-swift se concentre lui aussi sur le traitement vocal on-device, comme VibeVoice
Sauf qu’il fait tourner ASR, TTS, VAD en exploitant les capacités d’Apple Silicon sans dépendance au cloud
L’ASR prend en charge 52 langues et le real-time factor est de 0.06
https://soniqo.audio/benchmarks
J’ai bien aimé le billet de Simon publié hier soir
https://simonwillison.net/2026/Apr/27/vibevoice/
C’est un domaine proche de whisper, et il y a aussi séparément des modèles long-form TTS et streaming TTS
Je me demande pourquoi
J’ai choisi Microsoft Sam comme voix par défaut de l’ordinateur
Sususususususu
Waouh, enfin un produit IA de Microsoft qui ne s’appelle pas Copilot