Omni SenseVoice - reconnaissance vocale rapide avec horodatage mot par mot

xguru · 2024-11-10T09:31:01+09:00

Basé sur SenseVoice, un modèle multilingue de compréhension vocale doté de fonctions telles que la reconnaissance automatique de la parole (ASR), l’identification de langue parlée (LID), la reconnaissance des émotions vocales (SER) et la détection d’événements audio (AED) Optimisé pour une inférence ultra-rapide et des horodatages précis, afin de traiter les transcriptions audio de manière plus intelligente et plus rapide Principales options --language : détecter/spécifier automatiquement la langue (auto, zh, en, yue, ja, ko) --textnorm : choisir d’appliquer ou non la normalisation de texte inverse (withitn pour la forme dénormalisée, woitn pour le texte brut) --device-id : exécuter sur un GPU spécifique (valeur par défaut : -1 pour le CPU) --quantize : utiliser un modèle quantifié pour un traitement plus rapide

Basé sur SenseVoice, un modèle multilingue de compréhension vocale doté de fonctions telles que la reconnaissance automatique de la parole (ASR), l’identification de langue parlée (LID), la reconnaissance des émotions vocales (SER) et la détection d’événements audio (AED)
Optimisé pour une inférence ultra-rapide et des horodatages précis, afin de traiter les transcriptions audio de manière plus intelligente et plus rapide
Principales options
- --language : détecter/spécifier automatiquement la langue (auto, zh, en, yue, ja, ko)
- --textnorm : choisir d’appliquer ou non la normalisation de texte inverse (withitn pour la forme dénormalisée, woitn pour le texte brut)
- --device-id : exécuter sur un GPU spécifique (valeur par défaut : -1 pour le CPU)
- --quantize : utiliser un modèle quantifié pour un traitement plus rapide

Omni SenseVoice - reconnaissance vocale rapide avec horodatage mot par mot

À lire aussi

1 commentaires