VibeVoice - Modèle d’IA vocale open source de pointe
(github.com/microsoft)- Famille de modèles d’IA vocale open source publiée par Microsoft, incluant à la fois la TTS (texte→voix) et l’ASR (voix→texte)
- L’ASR est similaire à OpenAI Whisper, mais avec la fonction de speaker diarization intégrée directement au modèle
- L’innovation clé est un tokenizeur vocal continu à ultra-faible fréquence d’images de 7,5 Hz, qui améliore fortement l’efficacité de calcul sur les longues séquences tout en préservant la qualité audio
- Adoption du framework next-token diffusion : le LLM comprend le contexte textuel, et la diffusion head génère des détails acoustiques de haute qualité
- VibeVoice-ASR (7B) : traite jusqu’à 60 minutes d’audio en un seul passage, avec sortie structurée du locuteur (Who), de l’horodatage (When) et du contenu (What)
- Fonction de hotwords personnalisés pour améliorer la reconnaissance des termes spécialisés d’un domaine
- Modèle multilingue prenant nativement en charge plus de 50 langues
- Intégration à Hugging Face Transformers à partir de mars 2026
- Prise en charge de l’inférence vLLM pour des performances accrues et publication du code de fine-tuning
- VibeVoice-TTS (1.5B) : génère jusqu’à 90 minutes de voix conversationnelle en un seul passage, avec prise en charge de jusqu’à 4 locuteurs simultanément
- Génération vocale naturelle et expressive, capable de restituer les nuances émotionnelles et la dynamique conversationnelle, avec support multilingue
- Publié le 25 août 2025, mais des cas d’usage non conformes à l’intention initiale ayant ensuite été constatés, le code TTS a été retiré du dépôt le 5 septembre 2025
- VibeVoice-Realtime (0.5B) : TTS temps réel jusqu’à 10 minutes, avec première sortie vocale en environ 300 millisecondes
- Modèle léger de conversion texte-voix temps réel de 0.5B paramètres, adapté au déploiement
- Prise en charge de l’entrée texte en streaming
- Publié le 3 décembre 2025, puis enrichi expérimentalement le 16 décembre de voix multilingues en 9 langues (DE, FR, IT, JP, KR, NL, PL, PT, ES) et de 11 voix de style anglais
- La prise en charge d’Apple Silicon (MPS) a été ajoutée à la démo Gradio ASR, améliorant l’usage sur Mac
- Basé sur le modèle de base (Qwen2.5 1.5B), il peut hériter de biais et d’erreurs ; vigilance nécessaire face aux risques d’abus liés aux deepfakes
- Licence MIT
1 commentaires
VibeVoice - le modèle IA vocal open source de nouvelle génération de Microsoft
Sur GeekNews, il avait été publié dès le début, mais en raison d’un problème, le code VibeVoice-TTS a été retiré.
Pour le TTS, il semble que seul VibeVoice-Realtime soit actuellement disponible.
Ces derniers jours, on le voit de nouveau un peu partout, sans doute parce que VibeVoice-ASR revient en popularité.
https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison l’a testé, et sur Mac il peut être lancé en une seule ligne de commande avec
uvet mlx-audio.Il aurait traité environ 1 heure d’audio en seulement 8 min 45 s sur un MacBook Pro M5 Max avec 128 Go de mémoire.
On peut voir ça comme un « Whisper avec une bonne séparation des locuteurs ».