J’ai essayé Whisper d’OpenAI ainsi que Clova de NCP, mais la diarisation multi-locuteur en coréen semble être bien plus difficile que je ne l’imaginais.
Y a-t-il parmi les modèles locaux ou cloud, commerciaux, que vous avez utilisés, certains que vous pourriez recommander ?
Le processus envisagé serait le suivant :
- collecte du contenu > séparation audio (musique, effets et voix) > analyse de la forme d’onde audio > séparation des multiples locuteurs dans l’audio > STT par locuteur > génération d’une transcription basée sur les informations de timecode.
Selon le résultat, cela pourrait même être étendu jusqu’au doublage / à la création de sous-titres.
Voici les critères que je regarde :
- Quelle est la qualité du résultat produit par la séparation audio ?
- Est-il possible, à partir de l’audio, d’identifier et de distinguer la voix d’une même personne ?
Merci d’avance pour vos avis éclairés !
5 commentaires
D’après les différents essais que j’ai faits récemment, pour le multi-locuteur, Clova s’en sort bien.
Si une qualité correcte vous suffit, ReturnZero recommandé plus haut convient aussi.
Même si la qualité du STT est légèrement en retrait, si vous transmettez le résultat à un LLM performant, vous pouvez obtenir un résultat assez satisfaisant.
Dans mon cas, la reconnaissance des locuteurs n’était pas essentielle, donc j’ai opté pour Gemini.
Comme chaque solution a ses avantages et ses inconvénients, je vous recommande au final d’échantillonner quelques jeux de données que vous cherchez à traiter avant de faire votre choix.
https://developers.rtzr.ai/docs/stt-file/diarization/
On ne peut pas utiliser uniquement la distinction entre plusieurs locuteurs, mais une API est fournie en combinaison avec la STT. (OpenAI et Clova proposent quelque chose de similaire)
J’ai l’impression que Daglo s’en sortait bien pour la séparation des locuteurs.
Oh ! Vraiment ?! C’est une plateforme ? Je cherche plutôt quelque chose qui fonctionne avec un LLM local ou via une API !
Oui, malheureusement, Daglo ne propose pas de LLM local !
C'est payant, mais il semble aussi proposer une API. (https://developers.daglo.ai/guide/)