3 points par GN⁺ 2023-11-20 | 1 commentaires | Partager sur WhatsApp

Modèle texte-vers-parole de niveau humain, StyleTTS 2

  • StyleTTS 2 atteint une synthèse texte-vers-parole (TTS) de niveau humain grâce à un apprentissage antagoniste utilisant la diffusion de style et de grands modèles de langage vocal.
  • Le modèle réalise une diffusion latente efficace en modélisant le style comme une variable aléatoire latente via un modèle de diffusion afin de générer, sans voix de référence, le style le mieux adapté au texte.
  • Il améliore le naturel de la parole en utilisant un grand modèle de langage vocal préentraîné comme discriminateur, et en menant l’apprentissage de bout en bout grâce à une nouvelle modélisation différentiable de la durée.

Prérequis

  • Python version 3.7 ou supérieure est requis.
  • Cloner le dépôt StyleTTS 2 et installer les dépendances Python nécessaires.
  • Télécharger le jeu de données LJSpeech, le suréchantillonner à 24 kHz, puis le décompresser dans le dossier de données.
  • En cas d’utilisation du jeu de données LibriTTS, il faut fusionner train-clean-360 et train-clean-100, puis renommer le dossier en train-clean-460.

Entraînement

  • L’entraînement de la première étape puis de la seconde peut être exécuté séquentiellement, et le modèle est enregistré dans un format spécifique.
  • Le format de la liste de données doit être filename.wav|transcription|speaker, et pour un modèle multi-locuteurs, un échantillonnage audio de référence est nécessaire pour l’entraînement du modèle de diffusion de style.

Paramètres importants

  • Le fichier config.yml contient des paramètres importants, notamment le chemin du texte OOD (out-of-distribution) pour l’apprentissage antagoniste SLM, les longueurs minimale et maximale pour l’entraînement, l’activation ou non de l’entraînement d’un modèle multi-locuteurs, ainsi que le pourcentage de batch pour éviter les problèmes OOM (out-of-memory).

Modules préentraînés

  • Le dossier ASR contient un aligneur de texte préentraîné, le dossier JDC contient un extracteur de hauteur préentraîné, et le dossier PLBERT contient un modèle PL-BERT préentraîné.

Problèmes courants

  • Comme solutions aux pertes qui deviennent NaN et aux problèmes de mémoire insuffisante, il est proposé d’ajuster la taille du batch ou de réduire la valeur de max_len.

Fine-tuning

  • Un script de fine-tuning utilisant DP est fourni en modifiant le script train_second.py, tandis que DDP ne fonctionne pas actuellement.

Inférence

  • Se référer aux fichiers notebook pour l’inférence sur les jeux de données LJSpeech et LibriTTS, et pour LibriTTS un fichier audio de référence est nécessaire.
  • Il est possible de télécharger un modèle StyleTTS 2 préentraîné, et avant utilisation il faut informer les auditeurs que les échantillons vocaux synthétisés ont été générés par le modèle StyleTTS 2, ou utiliser une voix pour laquelle une autorisation d’usage a été obtenue.

L’avis de GN⁺

L’élément le plus important de cet article est que StyleTTS 2 a atteint une synthèse TTS de niveau humain, ce qui montre le potentiel de l’apprentissage antagoniste utilisant la diffusion de style et de grands modèles de langage vocal. Cette technologie peut considérablement améliorer le naturel de la synthèse vocale et, en offrant la capacité de générer divers styles sans voix de référence, pourrait avoir un impact majeur sur l’évolution des interfaces vocales et des assistants numériques.

1 commentaires

 
GN⁺ 2023-11-20
Avis sur Hacker News
  • Expérience de développement d’un chatbot vocal 100 % local avec StyleTTS2

    • Un chatbot créé à partir d’open source comme StyleTTS2, Whisper et OpenHermes2-Mistral-7B offre un temps de réponse bien plus rapide que ChatGPT.
    • Contrairement aux assistants vocaux existants, il permet une conversation naturelle et peut notamment être installé et utilisé en un clic sur un PC gaming Windows équipé d’un GPU Nvidia de 12 Go.
    • La démo est un peu instable (casque nécessaire, exécution via une application console, etc.), mais elle laisse entrevoir le potentiel d’un avenir où des combinaisons open source pourront tourner sur un PC gaming.
  • Avis personnel sur la qualité vocale de StyleTTS2

    • La voix est très bonne, mais avant de l’utiliser, la personne souhaiterait pouvoir faire un clone avec une voix agréable correspondant à ses préférences.
  • Retour d’expérience sur l’installation et l’utilisation de StyleTTS2

    • Partage d’un test de StyleTTS2 et de notes étape par étape pouvant être utiles pour une configuration locale.
    • Dans une comparaison vitesse/qualité avec le modèle LJSpeech, StyleTTS2 est très rapide et offre aussi une bonne qualité.
  • Expérience sur l’installation et le fonctionnement de StyleTTS2

    • La documentation étant un peu incomplète, l’installation a été légèrement compliquée, mais après environ 20 minutes, tout fonctionnait bien sur WSL Ubuntu 22.04.
    • La qualité audio est très bonne et c’est particulièrement rapide avec un GPU 4090.
    • Cela n’atteint pas la qualité d’Eleven Labs, mais la force d’Eleven réside dans sa vaste bibliothèque de voix de haute qualité et dans sa fonction de clonage vocal instantané, qui fonctionne étonnamment bien avec seulement 5 minutes d’échantillon.
    • L’espoir est de voir ces fonctionnalités disponibles un jour dans un projet entièrement open source.
  • Comparaison entre les exemples vocaux de StyleTTS2 et de vraies voix

    • Les exemples vocaux de TTS2 semblent plus naturels que de vraies voix.
    • Il y a de l’enthousiasme à l’idée d’utiliser cette technologie pour des fichiers ePub sans livre audio, en particulier des light novels japonais.
  • Évaluation de la qualité vocale de StyleTTS2

    • La qualité vocale est exceptionnelle, à un niveau inimaginable au début des années 2000.
    • Il y a des perspectives intéressantes pour des jeux où un LLM incarne un personnage et où le TTS donne une voix aux PNJ.
  • Avis sur le titre et le contenu de StyleTTS2

    • Le titre actuel sur Hacker News est « StyleTTS2 – open source text-to-speech de qualité Eleven Labs », mais ni le vrai titre ni l’article arXiv ne mentionnent Eleven Labs.
    • Cela exprime une inquiétude face à ce type de formulation éditoriale.
  • Question sur le temps d’inférence de StyleTTS2

    • Question sur un ordre de grandeur approximatif du temps d’inférence sur un CPU moderne.
  • Question sur la licence de StyleTTS2

    • Question sur le fait que, la licence n’étant pas MIT, elle ne serait peut-être pas utilisable à des fins commerciales.
  • Perspectives de marketplace pour les modèles de text-to-speech

    • Curiosité quant à l’émergence éventuelle d’une marketplace de LoRA de style Civitai pour les modèles de text-to-speech.