- Modèle Text-to-Speech basé sur les Transformers
- Avec seulement 3 secondes de n'importe quelle voix, il peut synthétiser cette même voix
- Bien plus naturel et plus proche du locuteur que les derniers TTS zero-shot, tout en préservant les émotions du locuteur et l'environnement acoustique
- L'ancien pipeline était phoneme (phonème) → mel-spectrogram → waveform,
VALL-E utilise phoneme → discrete code → waveform
- Peut être combiné à diverses applications de synthèse vocale ainsi qu'à des modèles d'IA comme GPT-3
3 commentaires
On dirait que les progrès du machine learning ont aussi abaissé la barrière d’entrée des technologies de TTS. En fouillant dans les dépôts open source, on voit qu’on peut même enregistrer sa propre voix et créer un TTS maison avec sa propre voix.
Désormais, les formes d’onde vocales ne pourront plus vraiment servir à identifier une personne comme des empreintes digitales. -_-;
Il me semble aussi avoir entendu dire que, pour les écoutes, certains utilisaient sur de gros serveurs l’empreinte vocale d’une personne précise afin de réagir à certains mots-clés de cette voix...
S’il est possible de synthétiser à ce niveau, ce genre de système est désormais bon pour la casse...