1 points par GN⁺ 2026-04-29 | 1 commentaires | Partager sur WhatsApp
  • Une famille de modèles d’IA vocale intégrant à la fois TTS et ASR, couvrant aussi bien la génération de voix longue durée que la reconnaissance vocale sur de longues séquences
  • L’architecture centrale combine un tokeniseur vocal continu à très faible fréquence d’images de 7,5 Hz et du next-token diffusion, afin de traiter de longues séquences tout en visant à la fois la qualité audio et l’efficacité de calcul
  • La structure utilise un LLM pour comprendre le contexte textuel et le fil de la conversation, avec une tête de diffusion ajoutée pour générer des détails acoustiques de haute fidélité
  • VibeVoice-ASR traite jusqu’à 60 minutes d’audio en un seul passage et produit une transcription structurée contenant à la fois les informations de locuteur, les horodatages et le contenu des énoncés
  • Le modèle ASR prend en charge plus de 50 langues et peut recevoir des hotwords personnalisés ou des informations de contexte afin d’améliorer la précision de reconnaissance pour des domaines spécialisés
  • Côté ASR, le code de finetuning et la prise en charge de l’inférence avec vLLM sont publiés, et le modèle peut aussi être utilisé directement dans la bibliothèque Hugging Face Transformers
  • VibeVoice-TTS peut synthétiser jusqu’à 90 minutes d’audio en un seul passage et prend en charge jusqu’à 4 locuteurs dans une même conversation
  • Le TTS met l’accent sur une voix conversationnelle expressive et la cohérence du locuteur, avec prise en charge de l’anglais, du chinois et d’autres langues
  • Selon l’annonce du dépôt, le code de VibeVoice-TTS a été retiré ; il est précisé qu’après sa publication, des usages non conformes à l’intention déclarée ont été constatés, ce qui a conduit à sa suppression du dépôt
  • VibeVoice-Realtime-0.5B est un modèle TTS temps réel de taille 0.5B, prenant en charge l’entrée de texte en streaming, une première latence audible d’environ 300 ms et la génération de voix longue durée d’environ 10 minutes
  • Le modèle Realtime ajoute des locuteurs expérimentaux multilingues dans 9 langues ainsi que 11 voix de style anglais, et indique que davantage de types de voix seront ajoutés progressivement
  • Les principales voies de distribution sont organisées autour des poids Hugging Face, d’un Playground et de Colab, ce qui permet des essais rapides
  • Ce dépôt est présenté comme étant réservé à des fins de recherche et de développement ; son usage en production ou en conditions réelles sans tests ni développement supplémentaires n’est pas recommandé
  • Les modèles peuvent hériter des biais et erreurs du modèle de base Qwen2.5 1.5b ; en raison des risques de deepfake, d’usurpation d’identité et de diffusion de fausses informations, un usage légal et responsable ainsi que la divulgation du caractère généré par l’IA sont recommandés

1 commentaires

 
GN⁺ 2026-04-29
Réactions sur Hacker News
  • Ce n’est même pas un nouveau modèle, et côté STT il hallucine beaucoup, l’inférence est lourde et lente, et les performances multilingues ne sont pas terribles
    Je ne sais pas pour les autres fonctions, mais ici je parle uniquement de speech to text

    • Ça n’est pas totalement sans avantages, et dans certains cas l’expressivité est un peu meilleure
      Mais globalement, ça donne l’impression d’avoir été entraîné sur des données très bruitées, ça consomme plus de mémoire et ce n’est pas rapide
      Je parle de vibevoice-community, la version 7B qui avait été publiée brièvement avant d’être retirée, et pour l’instant je continue d’utiliser chatterbox turbo et parfois qwen TTS
    • Je ne comprends pas pourquoi ça attire soudain autant d’attention aujourd’hui
      Même sur Twitter, on ne parle que de ça
    • Le TTS n’était pas bon non plus
      Je l’ai utilisé quelques jours, et d’abord il n’y a pas de documentation pour le modèle 1.5B, tandis que le modèle realtime 0.5B était médiocre
      Il convertissait le texte ligne par ligne, insérait aléatoirement de la musique, et ne gérait même pas correctement les caractères spéciaux comme
      Franchement, c’est assez décevant
    • Le SOTA actuel est très largement devant ça
    • Ce commentaire m’a fait gagner pas mal de temps
      J’ai immédiatement retiré mon étoile du repo et je vais passer mon tour
  • Il faudrait arrêter d’appeler ce genre de modèles open source
    En réalité, ce sont seulement des open weight, le code d’entraînement est propriétaire et n’a jamais été publié
    https://github.com/microsoft/VibeVoice/issues/102

    • Nous vivons désormais dans un monde où l’on appelle du freeware de l’open source
      Désolé, Stallman
    • Les modèles pour lesquels je garde cette critique sont ceux qui sont diffusés sous une licence non open source tout en étant présentés comme open source
      Quand un projet est marqué open source, ce qui compte le plus pour moi, c’est ce que je peux réellement faire avec
    • Ce navire a déjà quitté le port
      La distinction open source vs open weight semble désormais relever de la même catégorie que hacker/cracker ou les débats sur la prononciation de GIF
    • En y réfléchissant à l’inverse, si je prends du code MIT, que je ne fournis qu’un binaire et que je n’envoie jamais les sources, ce code peut quand même rester open source
      Ça veut simplement dire que je n’y ai pas accès, pas que la licence elle-même n’est pas MIT
      Cela dit, je suis entièrement d’accord sur le fait que Microsoft exagère ici l’ouverture, et ce n’est pas vraiment surprenant
    • Au moins, c’est sous licence MIT
      Les données d’entraînement non publiques me dérangent aussi, mais les licences restrictives me dérangent davantage
  • Dans cette catégorie, Voxtral me paraît bien meilleur
    Et en plus, il est assez petit pour tourner sur webGPU
    https://huggingface.co/spaces/mistralai/Voxtral-Realtime-WebGPU

  • Kevin Beaumont a publié quelque chose d’intéressant sur ce repo/produit/auteur
    https://cyberplace.social/@GossiTheDog/116454846703138243

    • C’est assez impressionnant de voir à quel point ils essaient de masquer le lien
  • J’ai l’impression que c’est ce projet que Microsoft avait publié puis retiré peu après pour des raisons de sécurité/sûreté
    Je me demande ce qui a changé depuis

    • Il suffit de regarder la section News du readme
      Le modèle TTS d’origine a disparu de ce repo, mais on peut encore le trouver ailleurs
      À la place, les modèles SST/ASR, long form TTS et streaming TTS sont plus récents
    • Au moins pour moi, c’est assez confus
      Parce que ce projet couvre plusieurs domaines à la fois, y compris ceux qui viennent d’être mentionnés
  • C’est intéressant de voir une entreprise comme Microsoft officialiser vibe comme terme produit pour l’IA

    • D’autant plus que vibe coded peut avoir une connotation négative, celle de bricoler quelque chose à la va-vite sans vraiment comprendre
    • Je me demande même si ce n’était pas un jeu de mots tordu avec Via Voice, le STT maudit d’IBM des années 90
    • Je suis encore plus surpris qu’ils aient résisté à la tentation de l’appeler Copilot
  • Mon speech-swift se concentre lui aussi sur le traitement vocal on-device, comme VibeVoice
    Sauf qu’il fait tourner ASR, TTS, VAD en exploitant les capacités d’Apple Silicon sans dépendance au cloud
    L’ASR prend en charge 52 langues et le real-time factor est de 0.06
    https://soniqo.audio/benchmarks

  • J’ai bien aimé le billet de Simon publié hier soir
    https://simonwillison.net/2026/Apr/27/vibevoice/

    • Pour référence, ce billet ne traite que de la partie Speech-to-Text / Speech-Recognition
      C’est un domaine proche de whisper, et il y a aussi séparément des modèles long-form TTS et streaming TTS
    • On dit que VibeVoice ne peut traiter que jusqu’à 1 heure d’audio
      Je me demande pourquoi
  • J’ai choisi Microsoft Sam comme voix par défaut de l’ordinateur

    • Je me souviens qu’avec des amis, dans la salle info, on s’amusait à entrer de longues chaînes dans Microsoft Sam pour produire des bruitages absurdes
      Sususususususu
  • Waouh, enfin un produit IA de Microsoft qui ne s’appelle pas Copilot

    • Vopilot aurait pourtant été parfait