Présentation de WhisperSpeech
- WhisperSpeech est un système open source de conversion texte-parole créé en reconstruisant Whisper à l’envers.
- Ce modèle a été conçu pour être à la fois puissant et facilement personnalisable, tout en pouvant être utilisé en toute sécurité dans un cadre commercial.
- Le modèle actuel a été entraîné sur le jeu de données anglais LibreLight, et la prochaine version devrait prendre en charge plusieurs langues.
Mise à jour de l’avancement [2024-01-18]
- La semaine passée a été principalement consacrée à l’optimisation des performances d’inférence.
- Grâce à l’intégration de
torch.compile, à l’ajout du cache kv et à des ajustements sur certaines couches, le système atteint actuellement une vitesse 12 fois supérieure au temps réel sur une GeForce 4090 grand public.
- Une fonctionnalité permettant de mélanger plusieurs langues dans une même phrase a été ajoutée.
- Une méthode simple pour tester le clonage vocal a également été ajoutée.
Mise à jour de l’avancement [2024-01-10]
- Déploiement d’un nouveau modèle SD S2A, plus rapide et capable de générer une voix de haute qualité.
- Des exemples de clonage vocal basés sur des fichiers audio de référence ont aussi été ajoutés.
Mise à jour de l’avancement [2023-12-10]
- Ajout de trois nouveaux modèles prenant en charge l’anglais et le polonais.
- De nouveaux échantillons vocaux sont proposés, avec possibilité de les tester directement sur Colab.
Téléchargement
- Il est recommandé d’utiliser le lien Google Colab comme point de départ, ou d’exécuter localement les notebooks fournis.
- Pour un téléchargement manuel ou si vous souhaitez entraîner le modèle depuis zéro, les modèles préentraînés WhisperSpeech et les jeux de données convertis sont disponibles sur HuggingFace.
Feuille de route
- Collecte d’un jeu de données vocal plus vaste et plus expressif
- Recherche d’une méthode pour contrôler la génération selon l’émotion et l’intonation
- Lancement d’un effort communautaire pour collecter des voix librement utilisables dans différentes langues
- Entraînement du futur modèle multilingue final
Architecture
- Architecture générale similaire à AudioLM, SPEAR TTS et MusicGen.
- Construit à partir de modèles open source puissants : Whisper d’OpenAI pour la génération de jetons sémantiques et la transcription, EnCodec de Meta pour la modélisation acoustique, et Vocos de Charactr Inc comme vocodeur haute qualité.
Remerciements
- Ce travail a été rendu possible grâce au soutien de Collabora, de LAION, du Jülich Supercomputing Centre et à l’aide de contributeurs individuels.
Conseil
- Une aide peut être fournie pour des projets d’IA open source comme propriétaires.
Citations
- Le projet s’appuie sur de nombreux excellents projets open source et articles de recherche.
Avis de GN⁺
- WhisperSpeech est un projet open source innovant dans le domaine de la synthèse vocale, qui propose un modèle texte-parole puissant, compatible avec plusieurs langues et sûr pour un usage commercial.
- En s’appuyant sur les technologies les plus récentes, il atteint des performances bien supérieures au temps réel et offre une grande accessibilité pour tester facilement des fonctions avancées comme le clonage vocal.
- Ce projet progresse de manière communautaire et vise à s’étendre à davantage de langues ainsi qu’à la génération vocale intégrant des dimensions émotionnelles, ce qui pourrait lui permettre de jouer un rôle important dans l’avenir des technologies vocales.
1 commentaires
Avis Hacker News
Projet de modèle ASR multilingue Whisper
Avis du développeur de WhisperSpeech
Intérêt pour la synthèse vocale en chinois
Mention de Mimic 3 de Mycroft
Question sur les modèles basés sur l’alphabet phonétique international (IPA)
Observation sur l’entraînement de voix personnalisées avec Piper
Évaluation des échantillons en polonais
Question sur la possibilité de contrôler les voix
Doute sur une démo entraînée à partir de clips de faible qualité de Winston Churchill
Évaluation positive du TTS