13 points par GN⁺ 2026-02-05 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Modèle de conversion parole-texte de nouvelle génération doté de fonctions de reconnaissance vocale en temps réel à très faible latence et de diarisation haute précision
  • Il se compose de deux modèles : Voxtral Mini Transcribe V2 pour le traitement par lots, et Voxtral Realtime pour les usages en temps réel
  • Le modèle Realtime traite la parole en streaming avec une latence inférieure à 200 ms et est publié en open weights Apache 2.0
  • Mini Transcribe V2 prend en charge 13 langues, dont le coréen, et propose des fonctions d’entreprise comme les horodatages au mot, le context biasing et la diarisation
  • Les deux modèles prennent en charge des déploiements conformes au RGPD et à HIPAA, améliorant fortement la précision, la vitesse et l’efficacité coûts des applications vocales

Présentation de Voxtral Transcribe 2

  • Voxtral Transcribe 2 se compose de deux modèles caractérisés par une qualité de reconnaissance vocale de pointe, une diarisation précise et un traitement à très faible latence
    • Voxtral Mini Transcribe V2 : pour la transcription par lots
    • Voxtral Realtime : pour les applications en temps réel
  • Le modèle Realtime est publié sous licence Apache 2.0, ce qui permet aussi un déploiement en environnement edge
  • Il est possible de tester immédiatement la transcription via l’audio playground dans Mistral Studio

Résumé des principales fonctionnalités

  • Voxtral Mini Transcribe V2 : prise en charge de 13 langues, diarisation, context biasing et horodatages au mot
  • Voxtral Realtime : transcription en temps réel avec une latence inférieure à 200 ms, adapté aux agents vocaux et aux applications temps réel
  • Efficacité : une précision de très haut niveau au tarif le plus bas du secteur
  • Open weights : le modèle Realtime est publié sous Apache 2.0 pour permettre des déploiements centrés sur la confidentialité

Voxtral Realtime

  • Modèle conçu pour les applications où la latence est critique, réalisant la transcription en temps réel avec une architecture de streaming sans traiter l’audio par chunks
  • Paramétrable à une latence inférieure à 200 ms, avec la même précision que le modèle batch à 2,4 s de latence et un taux d’erreur maintenu à 1 à 2 % à 480 ms de latence
  • Prend en charge 13 langues (anglais, chinois, hindi, espagnol, arabe, français, portugais, russe, allemand, japonais, coréen, italien, néerlandais)
  • Avec ses 4B paramètres, il fonctionne efficacement même sur des appareils edge tout en garantissant sécurité et confidentialité
  • Les poids du modèle sont disponibles sur Hugging Face Hub

Voxtral Mini Transcribe V2

  • La qualité de transcription et de diarisation a été nettement améliorée dans l’ensemble des langues et des domaines
  • Offre un excellent rapport performance/prix avec un taux d’erreur lexical d’environ 4 % sur le benchmark FLEURS et un coût de $0.003/min
  • Plus précis que GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal et Deepgram Nova, il est 3 fois plus rapide que ElevenLabs Scribe v2 pour un coût 5 fois inférieur

Fonctionnalités d’entreprise

  • Diarisation (Speaker diarization) : distingue les locuteurs et indique les points de début/fin des prises de parole, adapté aux réunions, interviews et appels à plusieurs
  • Context biasing : permet de définir jusqu’à 100 mots ou expressions pour améliorer la reconnaissance des noms propres et termes spécialisés (optimisé pour l’anglais, expérimental pour les autres langues)
  • Horodatages au mot : utiles pour la génération de sous-titres, la recherche audio et l’alignement de contenu
  • Prise en charge linguistique étendue : 13 langues prises en charge, avec des performances supérieures aux modèles concurrents aussi en dehors de l’anglais
  • Résistance au bruit : maintient sa précision même dans des environnements bruyants comme les usines ou les centres d’appels
  • Traitement d’audios longs : peut traiter en une seule requête un enregistrement allant jusqu’à 3 heures

Audio playground

  • Il est possible de tester directement Voxtral Transcribe 2 dans Mistral Studio
  • Prend en charge l’envoi de jusqu’à 10 fichiers audio, avec réglages de diarisation, granularité des horodatages et context biasing
  • Formats pris en charge : .mp3, .wav, .m4a, .flac, .ogg, jusqu’à 1 Go par fichier

Divers cas d’usage

  • Meeting intelligence : permet d’analyser à grande échelle des données de réunions grâce à la transcription multilingue et à l’identification des locuteurs
  • Agents vocaux et assistants virtuels : mise en œuvre d’interfaces conversationnelles naturelles avec une latence inférieure à 200 ms
  • Automatisation des centres de contact : transcription des appels en temps réel pour l’analyse de sentiment, les suggestions de réponse et l’alimentation automatique du CRM
  • Médias et diffusion : génération de sous-titres multilingues en temps réel, avec une meilleure reconnaissance des noms propres et termes spécialisés
  • Conformité réglementaire et documentation : possibilité de piste d’audit fondée sur des horodatages par locuteur
  • Les deux modèles prennent en charge des déploiements conformes au RGPD et à HIPAA et peuvent être exploités en toute sécurité on-premise ou dans un cloud privé

Utilisation et tarification

  • Voxtral Mini Transcribe V2 : $0.003/min via l’API, disponible dans Mistral Studio ou Le Chat
  • Voxtral Realtime : $0.006/min via l’API, avec open weights disponibles sur Hugging Face
  • Plus d’informations dans la documentation audio et transcription de Mistral

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.