14 points par spilist2 2023-08-23 | Aucun commentaire pour le moment. | Partager sur WhatsApp

(Cela semble mieux convenir à SHOW, mais comme ce n’est pas moi qui l’ai créé, je le publie dans NEWS plutôt que dans SHOW.)

====

Il s’agit d’un dépôt qui mesure, pour chaque API de reconnaissance vocale, le taux d’erreur (Character Error Rate) sur divers jeux de test publiés par AI-Hub, à partir d’API de sites destinés aux développeurs permettant d’essayer la reconnaissance vocale en coréen. Ce dépôt couvre notamment les points suivants.

  • Mesure du taux d’erreur (Character Error Rate) sur les jeux de test AI Hub à l’aide de diverses API de reconnaissance vocale, dont Return Zero, Google, OpenAI Whisper, ETRI et Naver
  • Introduction aux méthodes d’évaluation de la reconnaissance vocale en coréen

====

Ce projet a été rendu public afin d’évaluer objectivement les performances de diverses API de reconnaissance vocale. Il vise à analyser les écarts de performances entre les différents services de reconnaissance vocale disponibles sur le marché et, ce faisant, à offrir une meilleure accessibilité aux utilisateurs et aux développeurs.

Les documents publiés sous forme d’articles évaluent généralement uniquement les performances en anglais et publient le WER (Word Error Rate) sur paperswithcode. Cependant, pour la reconnaissance vocale en coréen, une évaluation en CER (Character Error Rate) est plus appropriée que le WER, et il était difficile de trouver un leaderboard bien organisé.

KsponSpeech a été rendu public pour la première fois en 2018, mais comme AI-Hub n’est accessible qu’aux ressortissants coréens et que peu de Coréens travaillent à la recherche et au développement en reconnaissance vocale, il n’a pas pu être diffusé sous forme de ressources variées.

Return Zero mène ses propres travaux de recherche et développement en reconnaissance vocale et, afin de rendre ces ressources accessibles au plus grand nombre, a contribué à intégrer KsponSpeech à speechbrain, très utilisé dans le domaine de la reconnaissance vocale. Il est ainsi possible de l’utiliser dans la recipe la plus récente, et l’entreprise a également contribué à le rendre accessible sur huggingface.

Récemment, divers types de données vocales ont été publiés sur AI-Hub, et nous avons pensé qu’évaluer jusqu’où en sont arrivés les moteurs de reconnaissance vocale en coréen sur ces différents jeux de données, puis faire connaître ces résultats, contribuerait au développement de la reconnaissance vocale en coréen.

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.