WhisperX - un ASR basé sur Whisper avec une précision des horodatages améliorée
(github.com/m-bain)- OpenAI Whisper génère des transcriptions très précises, mais ses horodatages sont au niveau des énoncés (utterances) plutôt qu’au mot, avec donc une imprécision de quelques secondes
- Améliore les horodatages du modèle Whisper à l’aide d’un ASR basé sur les phonèmes comme Wav2vec2.0 et d’un alignement forcé (forced alignment)
- Langues prises en charge par défaut : {en, fr, de, es, it, ja, zh, nl}. Pour les langues supplémentaires, il faut les chercher sur le Huggingface Model Hub et les tester
Aucun commentaire pour le moment.