VibeVoice - famille de modèles d’IA vocale open source de pointe

xguru · 2026-04-28T13:09:54+09:00

Famille de modèles d’IA vocale open source publiée par Microsoft, incluant à la fois le TTS (texte → voix) et l’ASR (voix → texte) L’ASR est similaire à OpenAI Whisper, mais la séparation des locuteurs (speaker diarization) est directement intégrée au modèle L’innovation clé est un tokenizer vocal continu à ultra-faible fréquence d’images de 7,5 Hz, qui améliore fortement l’efficacité de calcul sur les longues séquences tout en préservant la qualité audio Adoption du framework next-token diffusion : le LLM comprend le contexte textuel, et la diffusion head génère des détails acoustiques de haute qualité VibeVoice-ASR (7B) : traite jusqu’à 60 minutes d’audio en un seul passage, avec une sortie structurée du locuteur (Who), de l’horodatage (When) et du contenu (What) La fonctionnalité de hotwords personnalisés améliore la précision de reconnaissance des termes spécialisés d’un domaine Modèle multilingue prenant nativement en charge plus de 50 langues Intégré à Hugging Face Transformers à partir de mars 2026 Prise en charge de l’inférence vLLM pour une inférence plus rapide, et publication du code de fine-tuning VibeVoice-TTS (1.5B) : génère jusqu’à 90 minutes de voix conversationnelle en un seul passage, avec prise en charge de jusqu’à 4 locuteurs à la fois Génération vocale naturelle et expressive, capable de capturer les nuances émotionnelles et la dynamique conversationnelle, avec prise en charge multilingue Publié le 25 août 2025, mais après la découverte de cas d’usage non conformes à l’intention initiale, le code TTS a été retiré du dépôt le 5 septembre 2025 VibeVoice-Realtime (0.5B) : TTS temps réel jusqu’à 10 minutes, avec une première sortie vocale en environ 300 millisecondes Modèle léger de conversion texte-voix en temps réel de 0,5B de paramètres, adapté au déploiement Prise en charge de l’entrée texte en streaming Publié le 3 décembre 2025, puis le 16 décembre, des voix multilingues dans 9 langues (DE, FR, IT, JP, KR, NL, PL, PT, ES) et 11 voix de style anglais ont été ajoutées à titre expérimental La prise en charge d’Apple Silicon (MPS) a été ajoutée à la démo Gradio ASR, améliorant l’usage sur Mac Basé sur le modèle de base (Qwen2.5 1.5B), il peut hériter de biais et d’erreurs ; il faut aussi rester vigilant face aux risques d’abus liés aux deepfakes Licence MIT

Famille de modèles d’IA vocale open source publiée par Microsoft, incluant à la fois le TTS (texte → voix) et l’ASR (voix → texte)
L’ASR est similaire à OpenAI Whisper, mais la séparation des locuteurs (speaker diarization) est directement intégrée au modèle
L’innovation clé est un tokenizer vocal continu à ultra-faible fréquence d’images de 7,5 Hz, qui améliore fortement l’efficacité de calcul sur les longues séquences tout en préservant la qualité audio
Adoption du framework next-token diffusion : le LLM comprend le contexte textuel, et la diffusion head génère des détails acoustiques de haute qualité
VibeVoice-ASR (7B) : traite jusqu’à 60 minutes d’audio en un seul passage, avec une sortie structurée du locuteur (Who), de l’horodatage (When) et du contenu (What)
- La fonctionnalité de hotwords personnalisés améliore la précision de reconnaissance des termes spécialisés d’un domaine
- Modèle multilingue prenant nativement en charge plus de 50 langues
- Intégré à Hugging Face Transformers à partir de mars 2026
- Prise en charge de l’inférence vLLM pour une inférence plus rapide, et publication du code de fine-tuning
VibeVoice-TTS (1.5B) : génère jusqu’à 90 minutes de voix conversationnelle en un seul passage, avec prise en charge de jusqu’à 4 locuteurs à la fois
- Génération vocale naturelle et expressive, capable de capturer les nuances émotionnelles et la dynamique conversationnelle, avec prise en charge multilingue
- Publié le 25 août 2025, mais après la découverte de cas d’usage non conformes à l’intention initiale, le code TTS a été retiré du dépôt le 5 septembre 2025
VibeVoice-Realtime (0.5B) : TTS temps réel jusqu’à 10 minutes, avec une première sortie vocale en environ 300 millisecondes
- Modèle léger de conversion texte-voix en temps réel de 0,5B de paramètres, adapté au déploiement
- Prise en charge de l’entrée texte en streaming
- Publié le 3 décembre 2025, puis le 16 décembre, des voix multilingues dans 9 langues (DE, FR, IT, JP, KR, NL, PL, PT, ES) et 11 voix de style anglais ont été ajoutées à titre expérimental
- La prise en charge d’Apple Silicon (MPS) a été ajoutée à la démo Gradio ASR, améliorant l’usage sur Mac
Basé sur le modèle de base (Qwen2.5 1.5B), il peut hériter de biais et d’erreurs ; il faut aussi rester vigilant face aux risques d’abus liés aux deepfakes
Licence MIT

VibeVoice - famille de modèles d’IA vocale open source de pointe

À lire aussi

1 commentaires