Google Universal Speech Model - un modèle pour la reconnaissance vocale dans toutes les langues

xguru · 2023-03-31T10:02:02+09:00

Modèle de 2 milliards de paramètres, entraîné sur 12 millions d’heures de parole, 28 milliards de phrases et 300 langues Capable d’effectuer la reconnaissance vocale pour toutes sortes de langues, des plus connues à celles parlées par des minorités Y compris des langues parlées par moins de 20 millions de personnes, pour lesquelles il est difficile de trouver des données d’entraînement Les résultats d’évaluation sur des vidéos YouTube montrent un taux d’erreur sur les mots inférieur à celui de Whisper (OpenAI)

(sites.research.google)

17 points par xguru 2023-03-31 | 1 commentaires | Partager sur WhatsApp

Modèle de 2 milliards de paramètres, entraîné sur 12 millions d’heures de parole, 28 milliards de phrases et 300 langues
Capable d’effectuer la reconnaissance vocale pour toutes sortes de langues, des plus connues à celles parlées par des minorités
- Y compris des langues parlées par moins de 20 millions de personnes, pour lesquelles il est difficile de trouver des données d’entraînement
Les résultats d’évaluation sur des vidéos YouTube montrent un taux d’erreur sur les mots inférieur à celui de Whisper (OpenAI)

1 commentaires

xguru 2023-03-31

Whisper - le système de reconnaissance vocale multilingue (ASR) qu’OpenAI a publié en open source
OpenAI publie le modèle Whisper v2

Même si ses performances semblent bonnes, seuls l’article scientifique et l’API ont été publiés. Whisper, qui a été publié en open source, semble donc encore plus utile à l’usage pour le moment.

Google Universal Speech Model - un modèle pour la reconnaissance vocale dans toutes les langues

À lire aussi

1 commentaires