13 points par xguru 2024-11-10 | 1 commentaires | Partager sur WhatsApp
  • Basé sur SenseVoice, un modèle multilingue de compréhension vocale doté de fonctions telles que la reconnaissance automatique de la parole (ASR), l’identification de langue parlée (LID), la reconnaissance des émotions vocales (SER) et la détection d’événements audio (AED)
  • Optimisé pour une inférence ultra-rapide et des horodatages précis, afin de traiter les transcriptions audio de manière plus intelligente et plus rapide
  • Principales options
    • --language : détecter/spécifier automatiquement la langue (auto, zh, en, yue, ja, ko)
    • --textnorm : choisir d’appliquer ou non la normalisation de texte inverse (withitn pour la forme dénormalisée, woitn pour le texte brut)
    • --device-id : exécuter sur un GPU spécifique (valeur par défaut : -1 pour le CPU)
    • --quantize : utiliser un modèle quantifié pour un traitement plus rapide

1 commentaires

 
yangeok 2024-11-12

Comme le coréen figure parmi les options, j’ai bien envie de le tester haha