VALL-E - le modèle de langage de Microsoft pour la synthèse vocale

xguru · 2023-01-10T10:24:40+09:00

Modèle Text-to-Speech basé sur les Transformers Avec seulement 3 secondes de n'importe quelle voix, il peut synthétiser cette même voix Bien plus naturel et plus proche du locuteur que les derniers TTS zero-shot, tout en préservant les émotions du locuteur et l'environnement acoustique L'ancien pipeline était phoneme (phonème) → mel-spectrogram → waveform, VALL-E utilise phoneme → discrete code → waveform Peut être combiné à diverses applications de synthèse vocale ainsi qu'à des modèles d'IA comme GPT-3

Modèle Text-to-Speech basé sur les Transformers
Avec seulement 3 secondes de n'importe quelle voix, il peut synthétiser cette même voix
Bien plus naturel et plus proche du locuteur que les derniers TTS zero-shot, tout en préservant les émotions du locuteur et l'environnement acoustique
L'ancien pipeline était phoneme (phonème) → mel-spectrogram → waveform,
VALL-E utilise phoneme → discrete code → waveform
Peut être combiné à diverses applications de synthèse vocale ainsi qu'à des modèles d'IA comme GPT-3

3 commentaires

openmind 2023-01-10

On dirait que les progrès du machine learning ont aussi abaissé la barrière d’entrée des technologies de TTS. En fouillant dans les dépôts open source, on voit qu’on peut même enregistrer sa propre voix et créer un TTS maison avec sa propre voix.

jjpark78 2023-01-10

Désormais, les formes d’onde vocales ne pourront plus vraiment servir à identifier une personne comme des empreintes digitales. -_-;

Il me semble aussi avoir entendu dire que, pour les écoutes, certains utilisaient sur de gros serveurs l’empreinte vocale d’une personne précise afin de réagir à certains mots-clés de cette voix...

S’il est possible de synthétiser à ce niveau, ce genre de système est désormais bon pour la casse...

VALL-E - le modèle de langage de Microsoft pour la synthèse vocale

À lire aussi

3 commentaires