36 points par xguru 2026-04-28 | 1 commentaires | Partager sur WhatsApp
  • Famille de modèles d’IA vocale open source publiée par Microsoft, incluant à la fois le TTS (texte → voix) et l’ASR (voix → texte)
  • L’ASR est similaire à OpenAI Whisper, mais la séparation des locuteurs (speaker diarization) est directement intégrée au modèle
  • L’innovation clé est un tokenizer vocal continu à ultra-faible fréquence d’images de 7,5 Hz, qui améliore fortement l’efficacité de calcul sur les longues séquences tout en préservant la qualité audio
  • Adoption du framework next-token diffusion : le LLM comprend le contexte textuel, et la diffusion head génère des détails acoustiques de haute qualité
  • VibeVoice-ASR (7B) : traite jusqu’à 60 minutes d’audio en un seul passage, avec une sortie structurée du locuteur (Who), de l’horodatage (When) et du contenu (What)
    • La fonctionnalité de hotwords personnalisés améliore la précision de reconnaissance des termes spécialisés d’un domaine
    • Modèle multilingue prenant nativement en charge plus de 50 langues
    • Intégré à Hugging Face Transformers à partir de mars 2026
    • Prise en charge de l’inférence vLLM pour une inférence plus rapide, et publication du code de fine-tuning
  • VibeVoice-TTS (1.5B) : génère jusqu’à 90 minutes de voix conversationnelle en un seul passage, avec prise en charge de jusqu’à 4 locuteurs à la fois
    • Génération vocale naturelle et expressive, capable de capturer les nuances émotionnelles et la dynamique conversationnelle, avec prise en charge multilingue
    • Publié le 25 août 2025, mais après la découverte de cas d’usage non conformes à l’intention initiale, le code TTS a été retiré du dépôt le 5 septembre 2025
    Publicité
  • VibeVoice-Realtime (0.5B) : TTS temps réel jusqu’à 10 minutes, avec une première sortie vocale en environ 300 millisecondes
    • Modèle léger de conversion texte-voix en temps réel de 0,5B de paramètres, adapté au déploiement
    • Prise en charge de l’entrée texte en streaming
    • Publié le 3 décembre 2025, puis le 16 décembre, des voix multilingues dans 9 langues (DE, FR, IT, JP, KR, NL, PL, PT, ES) et 11 voix de style anglais ont été ajoutées à titre expérimental
    • La prise en charge d’Apple Silicon (MPS) a été ajoutée à la démo Gradio ASR, améliorant l’usage sur Mac
  • Basé sur le modèle de base (Qwen2.5 1.5B), il peut hériter de biais et d’erreurs ; il faut aussi rester vigilant face aux risques d’abus liés aux deepfakes
  • Licence MIT

1 commentaires

 
xguru 2026-04-28

VibeVoice - le modèle d’IA vocale open source de nouvelle génération de Microsoft
Il avait été publié sur GeekNews dès le début, mais en raison d’un problème, le code de VibeVoice-TTS a été retiré.
Pour le TTS, seul VibeVoice-Realtime semble actuellement disponible.
Ces derniers jours, on dirait que VibeVoice-ASR regagne en popularité, on le voit un peu partout.

https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison a testé l’ASR : sur Mac, il peut être lancé en une seule ligne de commande avec uv et mlx-audio,
et il a traité environ 1 heure d’audio en seulement 8 min 45 s sur un MacBook Pro M5 Max avec 128 Go de mémoire.
On peut le voir comme un Whisper avec une bonne séparation des locuteurs.