Présentation du modèle Voxtral Transcribe 2

(mistral.ai)

13 points par GN⁺ 2026-02-05 | 1 commentaires | Partager sur WhatsApp

Modèle de conversion parole-texte de nouvelle génération doté de fonctions de reconnaissance vocale en temps réel à très faible latence et de diarisation haute précision
Il se compose de deux modèles : Voxtral Mini Transcribe V2 pour le traitement par lots, et Voxtral Realtime pour les usages en temps réel
Le modèle Realtime traite la parole en streaming avec une latence inférieure à 200 ms et est publié en open weights Apache 2.0
Mini Transcribe V2 prend en charge 13 langues, dont le coréen, et propose des fonctions d’entreprise comme les horodatages au mot, le context biasing et la diarisation
Les deux modèles prennent en charge des déploiements conformes au RGPD et à HIPAA, améliorant fortement la précision, la vitesse et l’efficacité coûts des applications vocales

Présentation de Voxtral Transcribe 2

Voxtral Transcribe 2 se compose de deux modèles caractérisés par une qualité de reconnaissance vocale de pointe, une diarisation précise et un traitement à très faible latence
- Voxtral Mini Transcribe V2 : pour la transcription par lots
- Voxtral Realtime : pour les applications en temps réel
Le modèle Realtime est publié sous licence Apache 2.0, ce qui permet aussi un déploiement en environnement edge
Il est possible de tester immédiatement la transcription via l’audio playground dans Mistral Studio

Résumé des principales fonctionnalités

Voxtral Mini Transcribe V2 : prise en charge de 13 langues, diarisation, context biasing et horodatages au mot
Voxtral Realtime : transcription en temps réel avec une latence inférieure à 200 ms, adapté aux agents vocaux et aux applications temps réel
Efficacité : une précision de très haut niveau au tarif le plus bas du secteur
Open weights : le modèle Realtime est publié sous Apache 2.0 pour permettre des déploiements centrés sur la confidentialité

Voxtral Realtime

Modèle conçu pour les applications où la latence est critique, réalisant la transcription en temps réel avec une architecture de streaming sans traiter l’audio par chunks
Paramétrable à une latence inférieure à 200 ms, avec la même précision que le modèle batch à 2,4 s de latence et un taux d’erreur maintenu à 1 à 2 % à 480 ms de latence
Prend en charge 13 langues (anglais, chinois, hindi, espagnol, arabe, français, portugais, russe, allemand, japonais, coréen, italien, néerlandais)
Avec ses 4B paramètres, il fonctionne efficacement même sur des appareils edge tout en garantissant sécurité et confidentialité
Les poids du modèle sont disponibles sur Hugging Face Hub

Voxtral Mini Transcribe V2

La qualité de transcription et de diarisation a été nettement améliorée dans l’ensemble des langues et des domaines
Offre un excellent rapport performance/prix avec un taux d’erreur lexical d’environ 4 % sur le benchmark FLEURS et un coût de $0.003/min
Plus précis que GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal et Deepgram Nova, il est 3 fois plus rapide que ElevenLabs Scribe v2 pour un coût 5 fois inférieur

Fonctionnalités d’entreprise

Diarisation (Speaker diarization) : distingue les locuteurs et indique les points de début/fin des prises de parole, adapté aux réunions, interviews et appels à plusieurs
Context biasing : permet de définir jusqu’à 100 mots ou expressions pour améliorer la reconnaissance des noms propres et termes spécialisés (optimisé pour l’anglais, expérimental pour les autres langues)
Horodatages au mot : utiles pour la génération de sous-titres, la recherche audio et l’alignement de contenu
Prise en charge linguistique étendue : 13 langues prises en charge, avec des performances supérieures aux modèles concurrents aussi en dehors de l’anglais
Résistance au bruit : maintient sa précision même dans des environnements bruyants comme les usines ou les centres d’appels
Traitement d’audios longs : peut traiter en une seule requête un enregistrement allant jusqu’à 3 heures

Audio playground

Il est possible de tester directement Voxtral Transcribe 2 dans Mistral Studio
Prend en charge l’envoi de jusqu’à 10 fichiers audio, avec réglages de diarisation, granularité des horodatages et context biasing
Formats pris en charge : .mp3, .wav, .m4a, .flac, .ogg, jusqu’à 1 Go par fichier

Divers cas d’usage

Meeting intelligence : permet d’analyser à grande échelle des données de réunions grâce à la transcription multilingue et à l’identification des locuteurs
Agents vocaux et assistants virtuels : mise en œuvre d’interfaces conversationnelles naturelles avec une latence inférieure à 200 ms
Automatisation des centres de contact : transcription des appels en temps réel pour l’analyse de sentiment, les suggestions de réponse et l’alimentation automatique du CRM
Médias et diffusion : génération de sous-titres multilingues en temps réel, avec une meilleure reconnaissance des noms propres et termes spécialisés
Conformité réglementaire et documentation : possibilité de piste d’audit fondée sur des horodatages par locuteur

Les deux modèles prennent en charge des déploiements conformes au RGPD et à HIPAA et peuvent être exploités en toute sécurité on-premise ou dans un cloud privé

Utilisation et tarification

Voxtral Mini Transcribe V2 : $0.003/min via l’API, disponible dans Mistral Studio ou Le Chat
Voxtral Realtime : $0.006/min via l’API, avec open weights disponibles sur Hugging Face
Plus d’informations dans la documentation audio et transcription de Mistral

1 commentaires

GN⁺ 2026-02-05

Avis Hacker News

Cette démo était vraiment impressionnante
Même si elle indique qu’il n’y a pas de micro, il suffit d’appuyer sur le bouton d’enregistrement pour que le navigateur demande l’autorisation et que ça fonctionne immédiatement
Même en parlant vite et en mélangeant des termes techniques, la transcription reste précise. Il a même orthographié WebAssembly parfaitement
- J’ai utilisé presque tous les modèles vocaux sortis ces trois dernières années, et celui-ci est de très loin le meilleur que j’aie vu jusqu’à présent
  En plus, il est en open weights, ce qui est vraiment appréciable
- Merci pour le lien. Le playground par défaut de Mistral ne permet que l’upload de fichiers, donc il était difficile de se rendre compte de la vitesse et de la précision, mais ce lien montre vraiment bien les performances en temps réel
  J’ai même essayé de parler deux langues à la fois, et il les reconnaît correctement. Vraiment bluffant
- Chez moi, ça n’a pas fonctionné. Sur Firefox comme sur Chromium, la forme d’onde apparaît mais il reste bloqué sur « Awaiting audio input »
- Ce lien API renvoie une erreur 404. Elle apparaît en rouge en haut à droite de l’interface
- La vitesse est impressionnante au point de transcrire en temps réel même les passages de rap rapide d’Eminem
La reconnaissance de l’anglais est plutôt bonne, mais si on parle en polonais, il détecte du russe ou de l’ukrainien
Pour une entreprise basée en Europe, je pense que la prise en charge des principales langues européennes devrait être meilleure
Quand j’ai parlé en mélangeant anglais et polonais, le résultat était complètement hybride
- Il est indiqué explicitement que le modèle ne prend pas en charge le polonais, mais qu’il prend en charge le russe
  Il supporte 13 langues, et je me demande comment le nombre de paramètres ou les besoins en données d’entraînement évoluent quand il y a beaucoup de langues aux racines proches
- Je recommande de ne le tester qu’avec des langues figurant dans la liste des langues prises en charge
- C’est dommage qu’il ne soit performant que dans certaines langues. Officiellement, seules 13 langues sont vraiment bien prises en charge
- Si on mélange polonais et ukrainien, le résultat sort en russe. Même en ne parlant qu’ukrainien, la transcription est toujours faite en russe, ce qui est décevant
- Le polonais, du point de vue de sa structure phonologique, se prêterait plus naturellement à une écriture en alphabet cyrillique, mais ce n’est pas le cas pour des raisons historiques. Ce genre de chose semble perturber l’IA
Le taux d’erreur mot de 4 % sur FLEURS et le tarif de 0,003 $ par minute sont impressionnants
Amazon Transcribe facture 0,024 $ par minute, donc l’écart est important
- En revanche, je me demande si ce tarif s’applique par minute d’audio ou par minute de calcul
  Par exemple, l’API Whisper de fal.ai est à « 0,00125 $ par seconde de calcul », mais comme elle traite à une vitesse 10 à 25 fois supérieure au temps réel, cela revient beaucoup moins cher
Ce modèle est un modèle multilingue qui comprend 14 langues
Mais dans la plupart des cas d’usage, on n’a besoin que d’une seule langue, donc toutes les autres risquent seulement d’augmenter la latence
J’ai l’impression qu’on va voir apparaître une tendance consistant à alléger ces modèles généralistes en supprimant les parties inutiles
L’article correspondant est disponible ici
- Mais comme il existe beaucoup d’emprunts entre les langues, un modèle multilingue peut au contraire être utile
  Par exemple : « voila », « el camino real »
- Ce modèle semble avoir démontré à la fois son efficacité et sa précision
- Les services STT historiques comme Azure, Google ou Amazon exigent qu’on précise la langue, mais la qualité reste élevée
  Cela dit, ils semblent utiliser en interne une architecture de type LLM similaire
- Les gens n’utilisent pas qu’une seule langue. Le code switching est naturel, donc les modèles monolingues ont leurs limites
- Ce qui est amusant, c’est que certains commentaires au-dessus proposent de réduire le nombre de langues, tandis que d’autres se plaignent qu’il n’y en a pas assez
Les performances sont compétitives face à Deepgram nova-3 et meilleures que celles d’Assembly ou d’ElevenLabs dans la plupart des cas
Dans nos tests internes, nous l’avons évalué sur un jeu de données d’appels téléphoniques à 8 kHz avec un fort accent britannique, et il atteint pratiquement un niveau SOTA
En revanche, la distribution de latence était un peu instable. Cela devrait s’améliorer en exécution locale
Je me demande quelles ressources matérielles sont nécessaires
Ce n’était pas précisé s’il fallait plusieurs GPU NVIDIA haut de gamme, ou si cela pouvait fonctionner hors ligne sur des appareils basse consommation comme un ESP32
Je me demande si c’est meilleur que Nvidia Parakeet V3. Jusqu’ici, c’était la meilleure référence en local pour moi
- J’utilise pour ma part un portage direct de Nemotron ASR et j’en suis satisfait
  Voir le modèle, le port d’inférence et la version GGUF
- J’ai essayé Parakeet V3 en local, et celui-ci me paraît un peu plus lent, mais son précision est meilleure
- J’aimais bien Parakeet v3, mais il lui arrivait parfois d’omettre des phrases entières
- Parakeet fait 0,6B, donc il peut tourner sur des edge devices. Voxtral fait 4B, donc ça semble difficile d’obtenir du temps réel sur Orin ou Hailo
- Je venais poser exactement la même question !
Je croyais que la diarisation des locuteurs était intégrée par défaut, mais elle n’est pas présente dans la version temps réel
Voxtral-Mini-4B-Realtime-2602 est un modèle d’environ 9 Go
- La diarisation n’est incluse que dans la version Voxtral Mini Transcribe V2
J’ai essayé la démo : la reconnaissance de l’anglais est excellente, et le changement de langue est détecté en temps réel
En revanche, l’ukrainien n’est pas du tout reconnu et est toujours transcrit en russe
D’autres modèles STT gèrent bien l’ukrainien, donc c’est décevant ; on a l’impression que les données d’entraînement contenaient surtout du russe
- Comme le modèle ne prend en charge que le russe, il mappe l’ukrainien en entrée vers les mots russes les plus proches
Le modèle est bon, mais la version précédente n’était pas meilleure que Parakeet
Il faudrait une comparaison objective avec des modèles récents comme Qwen3-ASR
Il devient difficile de faire confiance aux benchmarks sélectionnés que montrent les entreprises
À l’heure actuelle, pour mon usage, Parakeet v3 reste le plus rapide et le plus efficace
- Il existe l’Open ASR Leaderboard, mais il n’a pas été mis à jour depuis six mois
- J’aime bien aussi Parakeet et je l’utilise sur Mac avec l’app Handy.
  Je me demande quelle app tu utilises sur téléphone

Présentation du modèle Voxtral Transcribe 2

Présentation de Voxtral Transcribe 2

Résumé des principales fonctionnalités

Voxtral Realtime

Voxtral Mini Transcribe V2

Fonctionnalités d’entreprise

Audio playground

Divers cas d’usage

Utilisation et tarification

À lire aussi

1 commentaires

Avis Hacker News