13 points par GN⁺ 2026-02-05 | 1 commentaires | Partager sur WhatsApp
  • Modèle de conversion parole-texte de nouvelle génération doté de fonctions de reconnaissance vocale en temps réel à très faible latence et de diarisation haute précision
  • Il se compose de deux modèles : Voxtral Mini Transcribe V2 pour le traitement par lots, et Voxtral Realtime pour les usages en temps réel
  • Le modèle Realtime traite la parole en streaming avec une latence inférieure à 200 ms et est publié en open weights Apache 2.0
  • Mini Transcribe V2 prend en charge 13 langues, dont le coréen, et propose des fonctions d’entreprise comme les horodatages au mot, le context biasing et la diarisation
  • Les deux modèles prennent en charge des déploiements conformes au RGPD et à HIPAA, améliorant fortement la précision, la vitesse et l’efficacité coûts des applications vocales

Présentation de Voxtral Transcribe 2

  • Voxtral Transcribe 2 se compose de deux modèles caractérisés par une qualité de reconnaissance vocale de pointe, une diarisation précise et un traitement à très faible latence
    • Voxtral Mini Transcribe V2 : pour la transcription par lots
    • Voxtral Realtime : pour les applications en temps réel
  • Le modèle Realtime est publié sous licence Apache 2.0, ce qui permet aussi un déploiement en environnement edge
  • Il est possible de tester immédiatement la transcription via l’audio playground dans Mistral Studio

Résumé des principales fonctionnalités

  • Voxtral Mini Transcribe V2 : prise en charge de 13 langues, diarisation, context biasing et horodatages au mot
  • Voxtral Realtime : transcription en temps réel avec une latence inférieure à 200 ms, adapté aux agents vocaux et aux applications temps réel
  • Efficacité : une précision de très haut niveau au tarif le plus bas du secteur
  • Open weights : le modèle Realtime est publié sous Apache 2.0 pour permettre des déploiements centrés sur la confidentialité

Voxtral Realtime

  • Modèle conçu pour les applications où la latence est critique, réalisant la transcription en temps réel avec une architecture de streaming sans traiter l’audio par chunks
  • Paramétrable à une latence inférieure à 200 ms, avec la même précision que le modèle batch à 2,4 s de latence et un taux d’erreur maintenu à 1 à 2 % à 480 ms de latence
  • Prend en charge 13 langues (anglais, chinois, hindi, espagnol, arabe, français, portugais, russe, allemand, japonais, coréen, italien, néerlandais)
  • Avec ses 4B paramètres, il fonctionne efficacement même sur des appareils edge tout en garantissant sécurité et confidentialité
  • Les poids du modèle sont disponibles sur Hugging Face Hub

Voxtral Mini Transcribe V2

  • La qualité de transcription et de diarisation a été nettement améliorée dans l’ensemble des langues et des domaines
  • Offre un excellent rapport performance/prix avec un taux d’erreur lexical d’environ 4 % sur le benchmark FLEURS et un coût de $0.003/min
  • Plus précis que GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal et Deepgram Nova, il est 3 fois plus rapide que ElevenLabs Scribe v2 pour un coût 5 fois inférieur

Fonctionnalités d’entreprise

  • Diarisation (Speaker diarization) : distingue les locuteurs et indique les points de début/fin des prises de parole, adapté aux réunions, interviews et appels à plusieurs
  • Context biasing : permet de définir jusqu’à 100 mots ou expressions pour améliorer la reconnaissance des noms propres et termes spécialisés (optimisé pour l’anglais, expérimental pour les autres langues)
  • Horodatages au mot : utiles pour la génération de sous-titres, la recherche audio et l’alignement de contenu
  • Prise en charge linguistique étendue : 13 langues prises en charge, avec des performances supérieures aux modèles concurrents aussi en dehors de l’anglais
  • Résistance au bruit : maintient sa précision même dans des environnements bruyants comme les usines ou les centres d’appels
  • Traitement d’audios longs : peut traiter en une seule requête un enregistrement allant jusqu’à 3 heures

Audio playground

  • Il est possible de tester directement Voxtral Transcribe 2 dans Mistral Studio
  • Prend en charge l’envoi de jusqu’à 10 fichiers audio, avec réglages de diarisation, granularité des horodatages et context biasing
  • Formats pris en charge : .mp3, .wav, .m4a, .flac, .ogg, jusqu’à 1 Go par fichier

Divers cas d’usage

  • Meeting intelligence : permet d’analyser à grande échelle des données de réunions grâce à la transcription multilingue et à l’identification des locuteurs
  • Agents vocaux et assistants virtuels : mise en œuvre d’interfaces conversationnelles naturelles avec une latence inférieure à 200 ms
  • Automatisation des centres de contact : transcription des appels en temps réel pour l’analyse de sentiment, les suggestions de réponse et l’alimentation automatique du CRM
  • Médias et diffusion : génération de sous-titres multilingues en temps réel, avec une meilleure reconnaissance des noms propres et termes spécialisés
  • Conformité réglementaire et documentation : possibilité de piste d’audit fondée sur des horodatages par locuteur
  • Les deux modèles prennent en charge des déploiements conformes au RGPD et à HIPAA et peuvent être exploités en toute sécurité on-premise ou dans un cloud privé

Utilisation et tarification

  • Voxtral Mini Transcribe V2 : $0.003/min via l’API, disponible dans Mistral Studio ou Le Chat
  • Voxtral Realtime : $0.006/min via l’API, avec open weights disponibles sur Hugging Face
  • Plus d’informations dans la documentation audio et transcription de Mistral

1 commentaires

 
GN⁺ 2026-02-05
Avis Hacker News
  • Cette démo était vraiment impressionnante
    Même si elle indique qu’il n’y a pas de micro, il suffit d’appuyer sur le bouton d’enregistrement pour que le navigateur demande l’autorisation et que ça fonctionne immédiatement
    Même en parlant vite et en mélangeant des termes techniques, la transcription reste précise. Il a même orthographié WebAssembly parfaitement

    • J’ai utilisé presque tous les modèles vocaux sortis ces trois dernières années, et celui-ci est de très loin le meilleur que j’aie vu jusqu’à présent
      En plus, il est en open weights, ce qui est vraiment appréciable
    • Merci pour le lien. Le playground par défaut de Mistral ne permet que l’upload de fichiers, donc il était difficile de se rendre compte de la vitesse et de la précision, mais ce lien montre vraiment bien les performances en temps réel
      J’ai même essayé de parler deux langues à la fois, et il les reconnaît correctement. Vraiment bluffant
    • Chez moi, ça n’a pas fonctionné. Sur Firefox comme sur Chromium, la forme d’onde apparaît mais il reste bloqué sur « Awaiting audio input »
    • Ce lien API renvoie une erreur 404. Elle apparaît en rouge en haut à droite de l’interface
    • La vitesse est impressionnante au point de transcrire en temps réel même les passages de rap rapide d’Eminem
  • La reconnaissance de l’anglais est plutôt bonne, mais si on parle en polonais, il détecte du russe ou de l’ukrainien
    Pour une entreprise basée en Europe, je pense que la prise en charge des principales langues européennes devrait être meilleure
    Quand j’ai parlé en mélangeant anglais et polonais, le résultat était complètement hybride

    • Il est indiqué explicitement que le modèle ne prend pas en charge le polonais, mais qu’il prend en charge le russe
      Il supporte 13 langues, et je me demande comment le nombre de paramètres ou les besoins en données d’entraînement évoluent quand il y a beaucoup de langues aux racines proches
    • Je recommande de ne le tester qu’avec des langues figurant dans la liste des langues prises en charge
    • C’est dommage qu’il ne soit performant que dans certaines langues. Officiellement, seules 13 langues sont vraiment bien prises en charge
    • Si on mélange polonais et ukrainien, le résultat sort en russe. Même en ne parlant qu’ukrainien, la transcription est toujours faite en russe, ce qui est décevant
    • Le polonais, du point de vue de sa structure phonologique, se prêterait plus naturellement à une écriture en alphabet cyrillique, mais ce n’est pas le cas pour des raisons historiques. Ce genre de chose semble perturber l’IA
  • Le taux d’erreur mot de 4 % sur FLEURS et le tarif de 0,003 $ par minute sont impressionnants
    Amazon Transcribe facture 0,024 $ par minute, donc l’écart est important

    • En revanche, je me demande si ce tarif s’applique par minute d’audio ou par minute de calcul
      Par exemple, l’API Whisper de fal.ai est à « 0,00125 $ par seconde de calcul », mais comme elle traite à une vitesse 10 à 25 fois supérieure au temps réel, cela revient beaucoup moins cher
  • Ce modèle est un modèle multilingue qui comprend 14 langues
    Mais dans la plupart des cas d’usage, on n’a besoin que d’une seule langue, donc toutes les autres risquent seulement d’augmenter la latence
    J’ai l’impression qu’on va voir apparaître une tendance consistant à alléger ces modèles généralistes en supprimant les parties inutiles
    L’article correspondant est disponible ici

    • Mais comme il existe beaucoup d’emprunts entre les langues, un modèle multilingue peut au contraire être utile
      Par exemple : « voila », « el camino real »
    • Ce modèle semble avoir démontré à la fois son efficacité et sa précision
    • Les services STT historiques comme Azure, Google ou Amazon exigent qu’on précise la langue, mais la qualité reste élevée
      Cela dit, ils semblent utiliser en interne une architecture de type LLM similaire
    • Les gens n’utilisent pas qu’une seule langue. Le code switching est naturel, donc les modèles monolingues ont leurs limites
    • Ce qui est amusant, c’est que certains commentaires au-dessus proposent de réduire le nombre de langues, tandis que d’autres se plaignent qu’il n’y en a pas assez
  • Les performances sont compétitives face à Deepgram nova-3 et meilleures que celles d’Assembly ou d’ElevenLabs dans la plupart des cas
    Dans nos tests internes, nous l’avons évalué sur un jeu de données d’appels téléphoniques à 8 kHz avec un fort accent britannique, et il atteint pratiquement un niveau SOTA
    En revanche, la distribution de latence était un peu instable. Cela devrait s’améliorer en exécution locale

  • Je me demande quelles ressources matérielles sont nécessaires
    Ce n’était pas précisé s’il fallait plusieurs GPU NVIDIA haut de gamme, ou si cela pouvait fonctionner hors ligne sur des appareils basse consommation comme un ESP32

  • Je me demande si c’est meilleur que Nvidia Parakeet V3. Jusqu’ici, c’était la meilleure référence en local pour moi

    • J’utilise pour ma part un portage direct de Nemotron ASR et j’en suis satisfait
      Voir le modèle, le port d’inférence et la version GGUF
    • J’ai essayé Parakeet V3 en local, et celui-ci me paraît un peu plus lent, mais son précision est meilleure
    • J’aimais bien Parakeet v3, mais il lui arrivait parfois d’omettre des phrases entières
    • Parakeet fait 0,6B, donc il peut tourner sur des edge devices. Voxtral fait 4B, donc ça semble difficile d’obtenir du temps réel sur Orin ou Hailo
    • Je venais poser exactement la même question !
  • Je croyais que la diarisation des locuteurs était intégrée par défaut, mais elle n’est pas présente dans la version temps réel
    Voxtral-Mini-4B-Realtime-2602 est un modèle d’environ 9 Go

    • La diarisation n’est incluse que dans la version Voxtral Mini Transcribe V2
  • J’ai essayé la démo : la reconnaissance de l’anglais est excellente, et le changement de langue est détecté en temps réel
    En revanche, l’ukrainien n’est pas du tout reconnu et est toujours transcrit en russe
    D’autres modèles STT gèrent bien l’ukrainien, donc c’est décevant ; on a l’impression que les données d’entraînement contenaient surtout du russe

    • Comme le modèle ne prend en charge que le russe, il mappe l’ukrainien en entrée vers les mots russes les plus proches
  • Le modèle est bon, mais la version précédente n’était pas meilleure que Parakeet
    Il faudrait une comparaison objective avec des modèles récents comme Qwen3-ASR
    Il devient difficile de faire confiance aux benchmarks sélectionnés que montrent les entreprises
    À l’heure actuelle, pour mon usage, Parakeet v3 reste le plus rapide et le plus efficace

    • Il existe l’Open ASR Leaderboard, mais il n’a pas été mis à jour depuis six mois
    • J’aime bien aussi Parakeet et je l’utilise sur Mac avec l’app Handy.
      Je me demande quelle app tu utilises sur téléphone