WhisperSpeech – système open source de synthèse vocale construit à partir de l’ingénierie inverse de Whisper

(github.com/collabora)

10 points par GN⁺ 2024-01-19 | 1 commentaires | Partager sur WhatsApp

Présentation de WhisperSpeech

WhisperSpeech est un système open source de conversion texte-parole créé en reconstruisant Whisper à l’envers.
Ce modèle a été conçu pour être à la fois puissant et facilement personnalisable, tout en pouvant être utilisé en toute sécurité dans un cadre commercial.
Le modèle actuel a été entraîné sur le jeu de données anglais LibreLight, et la prochaine version devrait prendre en charge plusieurs langues.

Mise à jour de l’avancement [2024-01-18]

La semaine passée a été principalement consacrée à l’optimisation des performances d’inférence.
Grâce à l’intégration de torch.compile, à l’ajout du cache kv et à des ajustements sur certaines couches, le système atteint actuellement une vitesse 12 fois supérieure au temps réel sur une GeForce 4090 grand public.
Une fonctionnalité permettant de mélanger plusieurs langues dans une même phrase a été ajoutée.
Une méthode simple pour tester le clonage vocal a également été ajoutée.

Mise à jour de l’avancement [2024-01-10]

Déploiement d’un nouveau modèle SD S2A, plus rapide et capable de générer une voix de haute qualité.
Des exemples de clonage vocal basés sur des fichiers audio de référence ont aussi été ajoutés.

Mise à jour de l’avancement [2023-12-10]

Ajout de trois nouveaux modèles prenant en charge l’anglais et le polonais.
De nouveaux échantillons vocaux sont proposés, avec possibilité de les tester directement sur Colab.

Téléchargement

Il est recommandé d’utiliser le lien Google Colab comme point de départ, ou d’exécuter localement les notebooks fournis.
Pour un téléchargement manuel ou si vous souhaitez entraîner le modèle depuis zéro, les modèles préentraînés WhisperSpeech et les jeux de données convertis sont disponibles sur HuggingFace.

Feuille de route

Collecte d’un jeu de données vocal plus vaste et plus expressif
Recherche d’une méthode pour contrôler la génération selon l’émotion et l’intonation
Lancement d’un effort communautaire pour collecter des voix librement utilisables dans différentes langues
Entraînement du futur modèle multilingue final

Architecture

Architecture générale similaire à AudioLM, SPEAR TTS et MusicGen.
Construit à partir de modèles open source puissants : Whisper d’OpenAI pour la génération de jetons sémantiques et la transcription, EnCodec de Meta pour la modélisation acoustique, et Vocos de Charactr Inc comme vocodeur haute qualité.

Remerciements

Ce travail a été rendu possible grâce au soutien de Collabora, de LAION, du Jülich Supercomputing Centre et à l’aide de contributeurs individuels.

Conseil

Une aide peut être fournie pour des projets d’IA open source comme propriétaires.

Citations

Le projet s’appuie sur de nombreux excellents projets open source et articles de recherche.

Avis de GN⁺

WhisperSpeech est un projet open source innovant dans le domaine de la synthèse vocale, qui propose un modèle texte-parole puissant, compatible avec plusieurs langues et sûr pour un usage commercial.
En s’appuyant sur les technologies les plus récentes, il atteint des performances bien supérieures au temps réel et offre une grande accessibilité pour tester facilement des fonctions avancées comme le clonage vocal.
Ce projet progresse de manière communautaire et vise à s’étendre à davantage de langues ainsi qu’à la génération vocale intégrant des dimensions émotionnelles, ce qui pourrait lui permettre de jouer un rôle important dans l’avenir des technologies vocales.

1 commentaires

GN⁺ 2024-01-19

Avis Hacker News

Projet de modèle ASR multilingue Whisper
- Le modèle ASR multilingue Whisper est entraîné sur un vaste volume de données et produit des sorties d’encodeur qui représentent bien le contenu sémantique de la parole.
- Cet encodeur peut servir d’alternative open source à l’encodeur sémantique dans des architectures de modèles comme SPEAR-TTS/VALL-E.
- Les jetons acoustiques prédits sont suréchantillonnés, débruités et améliorés avec le vocoder Vocos.
- Le principal goulot d’étranglement actuel est le manque de main-d’œuvre nécessaire pour obtenir et nettoyer un jeu de données adapté.
Avis du développeur de WhisperSpeech
- Il a travaillé intensivement pendant plusieurs mois pour améliorer le modèle, mais il reste encore beaucoup de marge de progression.
- Grâce au soutien de Collabora, c’est un véritable projet open source, et il souhaite aider celles et ceux qui veulent l’améliorer ou l’intégrer.
- En cas d’usage commercial, il est possible d’acheter du support d’ingénierie.
Intérêt pour la synthèse vocale en chinois
- Intérêt pour les performances en synthèse vocale en chinois, en particulier sur l’intonation et l’expression des émotions.
- EmotiVoice est le meilleur modèle open source vu jusqu’à présent en matière de qualité, et un wrapper CLI a été créé pour générer de l’audio destiné à des flashcards.
- Il est possible de cloner sa propre voix avec un GPU en utilisant EmotiVoice, mais cela n’a pas encore été testé.
Mention de Mimic 3 de Mycroft
- Mimic 3 de Mycroft n’utilise pas les technologies les plus récentes, mais reste impressionnant et assez léger pour générer de la parole en temps réel sur un Raspberry Pi.
- Certaines voix sont meilleures que d’autres, et atteignent un niveau comparable aux exemples de WhisperSpeech.
Question sur les modèles basés sur l’alphabet phonétique international (IPA)
- Question sur le développement et l’avancement de modèles basés sur l’IPA.
- Cette approche pourrait être utile pour modifier une voix avec différents accents ou pour prendre en charge plusieurs langues.
- Il est possible de le faire de manière limitée sur des modèles comme les voix MBROLA, en mappant les phonèmes d’une langue vers ceux d’une autre.
- Une approche IPA pourrait permettre de mieux apprendre les variations de qualité vocale et de timbre.
Observation sur l’entraînement de voix personnalisées avec Piper
- Après avoir vu une vidéo sur l’entraînement d’une voix personnalisée avec Piper, il a été noté que les métadonnées nécessaires dans le jeu de données concernent le texte des fichiers audio source.
- La méthode d’entraînement de Collabora automatise ce processus et ne nécessite que les fichiers audio pour l’entraînement.
Évaluation des échantillons en polonais
- Les échantillons en polonais sont très bons et donnent l’impression d’un enregistrement de livre audio.
Question sur la possibilité de contrôler les voix
- Intérêt pour le niveau de contrôle des voix dans l’application du TTS à un système de chat.
- Il faut autant de voix différentes que possible afin que chaque utilisateur puisse avoir une voix unique.
Doute sur une démo entraînée à partir de clips de faible qualité de Winston Churchill
- Un doute est exprimé au sujet d’une démo entraînée sur des extraits audio de faible qualité, selon le principe « garbage in, garbage out ».
Évaluation positive du TTS
- C’est le meilleur TTS entendu jusqu’à présent, avec une modulation de la voix très humaine.

WhisperSpeech – système open source de synthèse vocale construit à partir de l’ingénierie inverse de Whisper

Présentation de WhisperSpeech

Mise à jour de l’avancement [2024-01-18]

Mise à jour de l’avancement [2024-01-10]

Mise à jour de l’avancement [2023-12-10]

Téléchargement

Feuille de route

Architecture

Remerciements

Conseil

Citations

Avis de GN⁺

À lire aussi

1 commentaires

Avis Hacker News