13 points par GN⁺ 2024-03-30 | 1 commentaires | Partager sur WhatsApp
  • Méthode polyvalente de clonage vocal instantané permettant de reproduire la voix d’un locuteur à partir d’un court extrait audio de référence et de générer de la parole dans plusieurs langues
  • Permet un contrôle fin du style vocal et peut reproduire non seulement les émotions, l’intonation, le rythme, les pauses et l’accentuation, mais aussi le timbre du locuteur de référence
  • Permet également le clonage vocal interlinguistique zero-shot pour des langues qui ne figurent pas dans le grand jeu d’entraînement des locuteurs
  • Offre d’excellentes performances avec un coût de calcul plusieurs dizaines de fois inférieur à celui des API commercialement disponibles
  • Peut reproduire fidèlement le timbre de référence et générer de la parole dans diverses langues et avec différents accents
  • Rend possible un contrôle précis d’autres paramètres de style, comme le rythme, les pauses et l’accentuation, en plus des émotions et de l’intonation

1 commentaires

 
GN⁺ 2024-03-30

Commentaires sur Hacker News

  • Un utilisateur de Hacker News partage son expérience et explique comment exécuter la démo Gradio d’OpenVoice en local. Il indique utiliser une RTX 3090 pour générer de la voix plus rapidement que XTTS2, avec environ 1,5 Go de VRAM utilisés. La démo est limitée à 200 caractères pour tenir compte de l’usage des ressources, mais fonctionnerait à une vitesse 8 fois supérieure au temps réel. Il ajoute qu’après avoir modifié la démo pour tester des textes plus longs, il a pu rendre environ 1 minute d’audio en près de 4 secondes. Selon lui, la clarté de la voix est meilleure que celle de XTTS2, mais le résultat reste un peu maladroit et robotique.

  • Un autre utilisateur s’interroge sur les cas d’usage éthiques de la technologie de clonage vocal. Il cite plusieurs usages négatifs, comme la pornographie, l’usurpation d’identité, l’imitation frauduleuse, le remplacement des doubleurs, le vol de la voix des comédiens vocaux, ou encore la dissimulation de l’usage de bots dans le support client. Il reconnaît toutefois qu’il peut exister des usages positifs, par exemple redonner leur vraie voix à des personnes qui l’ont perdue, mais estime que ce marché n’est pas suffisant pour justifier l’investissement.

  • Un utilisateur partage l’information selon laquelle OpenVoice est classé deuxième en partant du bas sur le leaderboard du concours TTS de Huggingface. Il précise que des alternatives comme styletts2 et xtts2 sont bien mieux classées qu’OpenVoice.

  • Un utilisateur s’étonne que l’imitation de la voix d’Elon Musk soit utilisée comme preuve de qualité. Selon lui, la vraie voix de Musk est déjà maladroite et hachée, ce qui signifie qu’on pourrait imiter des voix bien meilleures.

  • Un utilisateur signale que Voicecraft a publié les poids de son modèle.

  • Un utilisateur mentionne qu’il n’a pas réussi à obtenir en local une qualité de clonage vocal comparable à celle des extraits proposés sur le site. Il suppose qu’il fait peut-être quelque chose de travers.

  • Un utilisateur indique avoir vérifié sur GitHub qu’il est possible de l’exécuter en local, et juge la qualité bonne.

  • Un utilisateur décrit le processus qui consiste à encoder la voix sous une forme proche de l’IPA, puis à décoder cette représentation dans la langue cible. Il mentionne aussi l’extraction du « timbre », sa suppression de cette représentation proche de l’IPA, puis sa réinjection dans la couche cible. Ainsi, explique-t-il, on peut entendre sa propre voix parler une autre langue avec un timbre similaire. Il se demande à quel point le résultat ressemblerait à sa vraie voix s’il apprenait un jour le chinois couramment, et s’il faudrait un « traducteur de timbre » pour traduire le timbre vocal d’une langue à l’autre.

  • Un utilisateur demande si quelqu’un connaît un modèle « inverse » capable d’identifier les locuteurs dans plusieurs enregistrements afin d’effectuer une diarisation des locuteurs.

  • Un utilisateur estime que tous les outils de clonage vocal ont une caractéristique de type « vocal fry », qui produit un effet de vallée de l’étrange en raison de leur incapacité à reproduire fidèlement les nuances subtiles de la voix. Il ajoute que ces outils n’arrivent toujours pas à se défaire complètement d’une respiration qui rappelle Microsoft Sam.