Présentation du modèle Voxtral Transcribe 2
(mistral.ai)- Modèle de conversion parole-texte de nouvelle génération doté de fonctions de reconnaissance vocale en temps réel à très faible latence et de diarisation haute précision
- Il se compose de deux modèles : Voxtral Mini Transcribe V2 pour le traitement par lots, et Voxtral Realtime pour les usages en temps réel
- Le modèle Realtime traite la parole en streaming avec une latence inférieure à 200 ms et est publié en open weights Apache 2.0
- Mini Transcribe V2 prend en charge 13 langues, dont le coréen, et propose des fonctions d’entreprise comme les horodatages au mot, le context biasing et la diarisation
- Les deux modèles prennent en charge des déploiements conformes au RGPD et à HIPAA, améliorant fortement la précision, la vitesse et l’efficacité coûts des applications vocales
Présentation de Voxtral Transcribe 2
- Voxtral Transcribe 2 se compose de deux modèles caractérisés par une qualité de reconnaissance vocale de pointe, une diarisation précise et un traitement à très faible latence
- Voxtral Mini Transcribe V2 : pour la transcription par lots
- Voxtral Realtime : pour les applications en temps réel
- Le modèle Realtime est publié sous licence Apache 2.0, ce qui permet aussi un déploiement en environnement edge
- Il est possible de tester immédiatement la transcription via l’audio playground dans Mistral Studio
Résumé des principales fonctionnalités
- Voxtral Mini Transcribe V2 : prise en charge de 13 langues, diarisation, context biasing et horodatages au mot
- Voxtral Realtime : transcription en temps réel avec une latence inférieure à 200 ms, adapté aux agents vocaux et aux applications temps réel
- Efficacité : une précision de très haut niveau au tarif le plus bas du secteur
- Open weights : le modèle Realtime est publié sous Apache 2.0 pour permettre des déploiements centrés sur la confidentialité
Voxtral Realtime
- Modèle conçu pour les applications où la latence est critique, réalisant la transcription en temps réel avec une architecture de streaming sans traiter l’audio par chunks
- Paramétrable à une latence inférieure à 200 ms, avec la même précision que le modèle batch à 2,4 s de latence et un taux d’erreur maintenu à 1 à 2 % à 480 ms de latence
- Prend en charge 13 langues (anglais, chinois, hindi, espagnol, arabe, français, portugais, russe, allemand, japonais, coréen, italien, néerlandais)
- Avec ses 4B paramètres, il fonctionne efficacement même sur des appareils edge tout en garantissant sécurité et confidentialité
- Les poids du modèle sont disponibles sur Hugging Face Hub
Voxtral Mini Transcribe V2
- La qualité de transcription et de diarisation a été nettement améliorée dans l’ensemble des langues et des domaines
- Offre un excellent rapport performance/prix avec un taux d’erreur lexical d’environ 4 % sur le benchmark FLEURS et un coût de $0.003/min
- Plus précis que GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal et Deepgram Nova, il est 3 fois plus rapide que ElevenLabs Scribe v2 pour un coût 5 fois inférieur
Fonctionnalités d’entreprise
- Diarisation (Speaker diarization) : distingue les locuteurs et indique les points de début/fin des prises de parole, adapté aux réunions, interviews et appels à plusieurs
- Context biasing : permet de définir jusqu’à 100 mots ou expressions pour améliorer la reconnaissance des noms propres et termes spécialisés (optimisé pour l’anglais, expérimental pour les autres langues)
- Horodatages au mot : utiles pour la génération de sous-titres, la recherche audio et l’alignement de contenu
- Prise en charge linguistique étendue : 13 langues prises en charge, avec des performances supérieures aux modèles concurrents aussi en dehors de l’anglais
- Résistance au bruit : maintient sa précision même dans des environnements bruyants comme les usines ou les centres d’appels
- Traitement d’audios longs : peut traiter en une seule requête un enregistrement allant jusqu’à 3 heures
Audio playground
- Il est possible de tester directement Voxtral Transcribe 2 dans Mistral Studio
- Prend en charge l’envoi de jusqu’à 10 fichiers audio, avec réglages de diarisation, granularité des horodatages et context biasing
- Formats pris en charge : .mp3, .wav, .m4a, .flac, .ogg, jusqu’à 1 Go par fichier
Divers cas d’usage
- Meeting intelligence : permet d’analyser à grande échelle des données de réunions grâce à la transcription multilingue et à l’identification des locuteurs
- Agents vocaux et assistants virtuels : mise en œuvre d’interfaces conversationnelles naturelles avec une latence inférieure à 200 ms
- Automatisation des centres de contact : transcription des appels en temps réel pour l’analyse de sentiment, les suggestions de réponse et l’alimentation automatique du CRM
- Médias et diffusion : génération de sous-titres multilingues en temps réel, avec une meilleure reconnaissance des noms propres et termes spécialisés
- Conformité réglementaire et documentation : possibilité de piste d’audit fondée sur des horodatages par locuteur
- Les deux modèles prennent en charge des déploiements conformes au RGPD et à HIPAA et peuvent être exploités en toute sécurité on-premise ou dans un cloud privé
Utilisation et tarification
- Voxtral Mini Transcribe V2 : $0.003/min via l’API, disponible dans Mistral Studio ou Le Chat
- Voxtral Realtime : $0.006/min via l’API, avec open weights disponibles sur Hugging Face
- Plus d’informations dans la documentation audio et transcription de Mistral
1 commentaires
Avis Hacker News
Cette démo était vraiment impressionnante
Même si elle indique qu’il n’y a pas de micro, il suffit d’appuyer sur le bouton d’enregistrement pour que le navigateur demande l’autorisation et que ça fonctionne immédiatement
Même en parlant vite et en mélangeant des termes techniques, la transcription reste précise. Il a même orthographié WebAssembly parfaitement
En plus, il est en open weights, ce qui est vraiment appréciable
J’ai même essayé de parler deux langues à la fois, et il les reconnaît correctement. Vraiment bluffant
La reconnaissance de l’anglais est plutôt bonne, mais si on parle en polonais, il détecte du russe ou de l’ukrainien
Pour une entreprise basée en Europe, je pense que la prise en charge des principales langues européennes devrait être meilleure
Quand j’ai parlé en mélangeant anglais et polonais, le résultat était complètement hybride
Il supporte 13 langues, et je me demande comment le nombre de paramètres ou les besoins en données d’entraînement évoluent quand il y a beaucoup de langues aux racines proches
Le taux d’erreur mot de 4 % sur FLEURS et le tarif de 0,003 $ par minute sont impressionnants
Amazon Transcribe facture 0,024 $ par minute, donc l’écart est important
Par exemple, l’API Whisper de fal.ai est à « 0,00125 $ par seconde de calcul », mais comme elle traite à une vitesse 10 à 25 fois supérieure au temps réel, cela revient beaucoup moins cher
Ce modèle est un modèle multilingue qui comprend 14 langues
Mais dans la plupart des cas d’usage, on n’a besoin que d’une seule langue, donc toutes les autres risquent seulement d’augmenter la latence
J’ai l’impression qu’on va voir apparaître une tendance consistant à alléger ces modèles généralistes en supprimant les parties inutiles
L’article correspondant est disponible ici
Par exemple : « voila », « el camino real »
Cela dit, ils semblent utiliser en interne une architecture de type LLM similaire
Les performances sont compétitives face à Deepgram nova-3 et meilleures que celles d’Assembly ou d’ElevenLabs dans la plupart des cas
Dans nos tests internes, nous l’avons évalué sur un jeu de données d’appels téléphoniques à 8 kHz avec un fort accent britannique, et il atteint pratiquement un niveau SOTA
En revanche, la distribution de latence était un peu instable. Cela devrait s’améliorer en exécution locale
Je me demande quelles ressources matérielles sont nécessaires
Ce n’était pas précisé s’il fallait plusieurs GPU NVIDIA haut de gamme, ou si cela pouvait fonctionner hors ligne sur des appareils basse consommation comme un ESP32
Je me demande si c’est meilleur que Nvidia Parakeet V3. Jusqu’ici, c’était la meilleure référence en local pour moi
Voir le modèle, le port d’inférence et la version GGUF
Je croyais que la diarisation des locuteurs était intégrée par défaut, mais elle n’est pas présente dans la version temps réel
Voxtral-Mini-4B-Realtime-2602 est un modèle d’environ 9 Go
J’ai essayé la démo : la reconnaissance de l’anglais est excellente, et le changement de langue est détecté en temps réel
En revanche, l’ukrainien n’est pas du tout reconnu et est toujours transcrit en russe
D’autres modèles STT gèrent bien l’ukrainien, donc c’est décevant ; on a l’impression que les données d’entraînement contenaient surtout du russe
Le modèle est bon, mais la version précédente n’était pas meilleure que Parakeet
Il faudrait une comparaison objective avec des modèles récents comme Qwen3-ASR
Il devient difficile de faire confiance aux benchmarks sélectionnés que montrent les entreprises
À l’heure actuelle, pour mon usage, Parakeet v3 reste le plus rapide et le plus efficace
Je me demande quelle app tu utilises sur téléphone