Cohere Transcribe - Modèle open source SOTA de reconnaissance vocale

(cohere.com)

3 points par GN⁺ 26 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Modèle de reconnaissance automatique de la parole (ASR) de pointe de 2B (2 milliards) de paramètres, prenant en charge 14 langues, dont l’anglais, le coréen et le chinois
Utilise une architecture encodeur-décodeur basée sur Conformer et est distribué sous licence Apache 2.0
Avec un taux moyen d’erreur sur les mots (WER) de 5,42 % en anglais, il dépasse les principaux modèles concurrents comme Whisper Large v3 et se classe n°1 du Hugging Face Open ASR Leaderboard
A montré une grande précision et une forte cohérence à la fois dans les évaluations en conditions réelles et les évaluations humaines, tout en conservant des performances stables en transcription multilingue
Atteint à la fois une faible latence et une efficacité de traitement élevée, ce qui le rend adapté aux produits et workflows en temps réel

Vue d’ensemble de Cohere Transcribe

La voix s’impose comme un format d’entrée clé pour l’automatisation du travail basée sur l’IA, notamment pour les comptes rendus de réunions, l’analyse vocale et l’assistance client en temps réel
Ce modèle a été entraîné entièrement depuis zéro avec pour objectif de minimiser le taux d’erreur sur les mots (WER), et a été conçu non pour la recherche mais pour une utilisation en environnement de production réel
L’inférence est efficace sur GPU comme en environnement local, et le modèle est également disponible sur la plateforme d’inférence managée de Cohere, Model Vault
En atteignant la 1re place en précision sur l’Open ASR Leaderboard de Hugging Face, il établit une nouvelle référence pour les performances de transcription en conditions réelles

Le modèle s’appelle cohere-transcribe-03-2026 et utilise une architecture encodeur-décodeur basée sur Conformer
- En entrée, la forme d’onde audio est convertie en spectrogramme log-Mel ; en sortie, on obtient le texte transcrit
- Un grand encodeur Conformer de 2B (2 milliards) de paramètres extrait les représentations acoustiques, tandis qu’un décodeur Transformer léger génère les tokens
Le modèle a été entraîné dès le départ en apprentissage supervisé avec une perte d’entropie croisée standard
Prise en charge de 14 langues
- Europe : anglais, français, allemand, italien, espagnol, portugais, grec, néerlandais, polonais
- Asie-Pacifique : chinois (mandarin), japonais, coréen, vietnamien
- Moyen-Orient et Afrique du Nord : arabe
- Publié sous licence Apache 2.0

Nouveau standard de référence en reconnaissance vocale anglaise, avec un WER moyen de 5,42 %, soit la meilleure performance parmi les modèles ASR publics et privés
- Il dépasse les principaux modèles concurrents comme Whisper Large v3, ElevenLabs Scribe v2 et Qwen3-ASR-1.7B
Il conserve des performances robustes dans divers environnements réels (plusieurs locuteurs, acoustique de salle de réunion, accents variés)
Principaux résultats de benchmark
- AMI : 8.13, LS clean : 1.25, LS other : 2.37, Voxpopuli : 5.87
- Avec un WER moyen de 5,42, il surpasse Zoom Scribe v1 (5.47), IBM Granite 4.0 (5.52) et NVIDIA Canary Qwen 2.5B (5.63)
Le Hugging Face Open ASR Leaderboard évalue les modèles sur plusieurs jeux de données avec un WER standardisé ; un WER plus faible signifie une meilleure précision de transcription

Les excellentes performances observées au benchmark se confirment aussi en conditions réelles
- Des évaluateurs expérimentés ont jugé les transcriptions d’audio réel selon des critères de précision, cohérence et utilisabilité
- Les évaluations automatiques comme humaines montrent des performances supérieures et cohérentes
Lors des comparaisons de qualité des transcriptions anglaises, le modèle a été largement préféré pour la préservation du sens, la limitation des hallucinations, la reconnaissance des noms propres et la précision de la mise en forme
Dans les évaluations humaines par langue prise en charge, il a aussi obtenu un taux de préférence supérieur à 50 %, démontrant des performances stables en contexte multilingue

En environnement de production réel, la latence et le débit (throughput) sont des contraintes clés
- Même avec une grande précision, un modèle trop lent ou trop gourmand en ressources affecte directement l’expérience utilisateur et les coûts
Cohere Transcribe maintient l’un des meilleurs niveaux d’efficacité de traitement parmi les modèles de plus de 1B de paramètres, tout en obtenant un faible WER et un RTFx élevé (multiplicateur de traitement en temps réel)
Le RTFx mesure la vitesse de traitement d’un audio par rapport au temps réel ; Transcribe repousse ainsi la frontière de Pareto à la fois sur la précision et sur la vitesse
Évaluation de Radical Ventures
- Paige Dickie, vice-présidente chez Radical Ventures, a salué la vitesse et la qualité de Transcribe
- Elle a indiqué qu’il « transcrit en quelques secondes des fichiers audio de plusieurs minutes et ouvre de nouvelles possibilités pour les produits et workflows en temps réel »
- Elle a également estimé qu’il offre une qualité de transcription solide et fiable, y compris sur la parole du quotidien, avec une expérience d’utilisation fluide

Cohere prévoit d’intégrer Transcribe à North, sa plateforme d’orchestration d’agents IA
- À terme, Transcribe devrait évoluer au-delà d’un simple modèle de transcription pour devenir une base d’intelligence vocale destinée aux entreprises

Le modèle peut être téléchargé depuis Hugging Face et exécuté en local ou en environnement edge
Il est possible de l’essayer gratuitement via la Cohere API, avec toutefois une limitation du nombre de requêtes (rate limit)
- Les instructions d’utilisation et guides d’intégration sont fournis dans la documentation officielle
Avec Model Vault, il est possible d’effectuer une inférence privée dans le cloud à faible latence sans gérer l’infrastructure
- Une tarification à l’instance horaire s’applique, avec des remises en cas d’utilisation longue durée
- Pour les déploiements en entreprise, il est possible de contacter l’équipe commerciale de Cohere