Open source permettant de cloner une voix en temps réel à partir de seulement 5 secondes de la voix d’une personne
(github.com)Implémentation de l’article « Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) » .
2 commentaires
À mesure que les technologies de synthèse de visages et de synthèse vocale progressent, je me dis qu’au final, la signification même de l’apparence et de la voix pourrait changer. Il ne sera alors plus possible d’identifier une personne à partir de son apparence extérieure ou d’éléments matériels. J’ai l’impression qu’une époque davantage centrée sur l’esprit humain et son essence va arriver.
Démo vidéo YouTube : https://www.youtube.com/watch?v=-O_hYhToKoA