5 points par xguru 2022-12-31 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • OpenAI Whisper génère des transcriptions très précises, mais ses horodatages sont au niveau des énoncés (utterances) plutôt qu’au mot, avec donc une imprécision de quelques secondes
  • Améliore les horodatages du modèle Whisper à l’aide d’un ASR basé sur les phonèmes comme Wav2vec2.0 et d’un alignement forcé (forced alignment)
  • Langues prises en charge par défaut : {en, fr, de, es, it, ja, zh, nl}. Pour les langues supplémentaires, il faut les chercher sur le Huggingface Model Hub et les tester

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.