1 points par somang04 4 시간 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Je ne sais pas si ça correspond vraiment à ASK GN..! Mais comme ce n’est ni une actu ni un Show, je le poste ici.

Je suis en train de construire quelque chose à partir des avis que vous m’aviez donnés la dernière fois.
Par hasard, un ami chargé du business avec qui je travaille avait aussi une idée similaire, donc deux non-développeurs bricolent actuellement un MVP ensemble.
(Le coût de Claude Code 5X + de l’API est entièrement à ma charge.. mon ami côté business fournit l’alcool et la nourriture.. haha)

Comme on le construit autour de contenus comme des dramas, émissions de divertissement et films, les modèles utilisables sont assez limités.
Du coup, après pas mal de recherches, nous utilisons Whisper (API OpenAI), Pyannote et Assembly AI.

La période gratuite de pyannote est terminée, donc il faudrait payer, mais comme ce n’est pas une facturation à l’usage et que c’est un abonnement ($19/month), on a laissé tomber,
et on teste actuellement avec Deepgram Nova-3. (Ils donnent $200 à l’inscription.)

Mais... évidemment, sans pyannote, la séparation des locuteurs est difficile, donc nous utilisons meronym/speaker-diarization sur replicate.com pour faire la diarisation des locuteurs.

Au vu du résultat final, la séparation des locuteurs fonctionne tout de même à peu près correctement.
Je prévois aussi de comparer avec Clova, et je partagerai également les résultats de la comparaison !

Maintenant, mes questions suivantes sont :

  1. La séparation des locuteurs se fait à partir de l’audio ; si on y ajoute une fonction de reconnaissance faciale, est-ce que cela permettrait d’être plus précis ?
  2. Comment faut-il collecter les métadonnées nécessaires à la reconnaissance faciale ?
  3. Si l’on se base sur des contenus comme des dramas / films / émissions de divertissement, où obtenir les métadonnées ? (Naver, NamuWiki, etc.)
  4. Est-ce que collecter ces métadonnées améliorera réellement la qualité au regard du coût et du temps nécessaires ?

S’il y a des personnes plus expérimentées qui se sont déjà posé ce type de questions, je serais très reconnaissant pour tous vos conseils...!!!

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.