Existe-t-il un modèle performant pour la diarisation multi-locuteur en coréen ??

2 points par somang04 2026-05-12 | 5 commentaires | Partager sur WhatsApp

J’ai essayé Whisper d’OpenAI ainsi que Clova de NCP, mais la diarisation multi-locuteur en coréen semble être bien plus difficile que je ne l’imaginais.
Y a-t-il parmi les modèles locaux ou cloud, commerciaux, que vous avez utilisés, certains que vous pourriez recommander ?

Le processus envisagé serait le suivant :

collecte du contenu > séparation audio (musique, effets et voix) > analyse de la forme d’onde audio > séparation des multiples locuteurs dans l’audio > STT par locuteur > génération d’une transcription basée sur les informations de timecode.

Selon le résultat, cela pourrait même être étendu jusqu’au doublage / à la création de sous-titres.

Voici les critères que je regarde :

Quelle est la qualité du résultat produit par la séparation audio ?
Est-il possible, à partir de l’audio, d’identifier et de distinguer la voix d’une même personne ?

Merci d’avance pour vos avis éclairés !

5 commentaires

sungwoo 2026-05-19

D’après les différents essais que j’ai faits récemment, pour le multi-locuteur, Clova s’en sort bien.
Si une qualité correcte vous suffit, ReturnZero recommandé plus haut convient aussi.
Même si la qualité du STT est légèrement en retrait, si vous transmettez le résultat à un LLM performant, vous pouvez obtenir un résultat assez satisfaisant.

Dans mon cas, la reconnaissance des locuteurs n’était pas essentielle, donc j’ai opté pour Gemini.
Comme chaque solution a ses avantages et ses inconvénients, je vous recommande au final d’échantillonner quelques jeux de données que vous cherchez à traiter avant de faire votre choix.

arthurk 2026-05-18

https://developers.rtzr.ai/docs/stt-file/diarization/
On ne peut pas utiliser uniquement la distinction entre plusieurs locuteurs, mais une API est fournie en combinaison avec la STT. (OpenAI et Clova proposent quelque chose de similaire)

yunsub2 2026-05-12

J’ai l’impression que Daglo s’en sortait bien pour la séparation des locuteurs.

somang04 2026-05-12

Oh ! Vraiment ?! C’est une plateforme ? Je cherche plutôt quelque chose qui fonctionne avec un LLM local ou via une API !

yunsub2 2026-05-13

Oui, malheureusement, Daglo ne propose pas de LLM local !
C'est payant, mais il semble aussi proposer une API. (https://developers.daglo.ai/guide/)

Existe-t-il un modèle performant pour la diarisation multi-locuteur en coréen ??

À lire aussi

5 commentaires