5 points par GN⁺ 2024-01-02 | 1 commentaires | Partager sur WhatsApp

OpenVoice : technologie polyvalente de clonage vocal instantané

  • OpenVoice est une approche polyvalente de clonage vocal capable de reproduire une voix à partir d’un court extrait audio de référence et de générer cette voix dans différentes langues.
  • Cette technologie offre une grande flexibilité dans le contrôle du style vocal : elle peut non seulement reproduire le timbre de la voix de référence, mais aussi ajuster finement des éléments comme l’émotion, l’accentuation, le rythme, les pauses et l’intonation.
  • OpenVoice atteint également un clonage vocal cross-lingue en zero-shot pour des langues qui ne figurent pas dans les grands jeux de données d’entraînement de locuteurs.

Détails techniques et contributions de la recherche

  • OpenVoice affiche un coût de calcul plusieurs dizaines de fois plus efficace que les API disponibles commercialement, tout en offrant de meilleures performances.
  • Le code source et les modèles entraînés sont rendus publiquement accessibles afin de favoriser de nouveaux progrès dans la recherche.
  • Un site de démonstration présente des résultats qualitatifs, et une version interne avant publication a été utilisée des dizaines de millions de fois par des utilisateurs du monde entier entre mai et octobre 2023.

Avis de GN⁺

  • OpenVoice représente une avancée majeure dans les technologies de clonage vocal, en particulier grâce à sa capacité très innovante à générer des voix dans de multiples langues et styles.
  • Cette technologie présente un fort potentiel d’application dans des domaines variés, comme l’éducation, le divertissement et les services vocaux personnalisés.
  • Le code source et les modèles publiés devraient contribuer à accélérer la recherche sur les technologies vocales.

1 commentaires

 
GN⁺ 2024-01-02
Avis sur Hacker News
  • Un utilisateur félicite les auteurs d’avoir rendu ce projet facile à essayer. En revanche, il a obtenu des résultats peu satisfaisants pour le clonage de voix généraliste. Il a fait lire le premier paragraphe de la page Wikipédia sur les livres puis a demandé de générer la phrase suivante, mais le résultat sonnait comme s’il avait été produit par un ordinateur.

    • Il renvoie vers l’échantillon audio fourni et vers le lien de la voix clonée (conversion mp3).
    • Il a installé les paquets nécessaires avec pip et a exécuté demo_part1.ipynb avec son propre échantillon audio. Le notebook s’est exécuté presque instantanément.
  • Un utilisateur demande qu’on lui recommande un bon projet open source à utiliser s’il veut faire du clonage de voix sur son propre matériel. Il se demande quel est l’état de l’art actuel du clonage de voix open source.

  • Un utilisateur demande s’il est possible d’utiliser cette technologie (ou Eleven Labs) pour créer un modèle de voix pouvant être branché sur le TTS d’un téléphone Android.

    • Un ami de l’utilisateur communique souvent en tapant sur son téléphone ou sur un petit ordinateur portable en raison d’une paralysie laryngée. Ce serait bien si cet ami pouvait, dans une certaine mesure, retrouver « sa » voix à partir d’enregistrements passés de sa propre voix.
  • Un utilisateur apprécie cet article. Il y perçoit une volonté de dire : « voici ce que nous avons fait, et nous voulons aider d’autres personnes à le faire ». Il évalue particulièrement positivement la section « Remark on Novelty » : la contribution d’OpenVoice ne consiste pas à inventer des sous-modules de l’architecture du modèle, mais à proposer un framework dissocié qui sépare le style vocal et le contrôle de la langue du clonage du timbre.

  • Un lien GitHub et un lien vers les checkpoints (fichier zip) sont fournis. L’utilisateur dit être allergique aux liens directs vers des fichiers zip hébergés sur Amazon, et fournit donc un lien de checkpoint corrigé.

  • Un utilisateur juge impressionnants les liens d’exemple fournis.

  • Un utilisateur espère que YouTube interdira l’usage de cette technologie ou offrira au moins une fonction permettant de filtrer ce type de vidéos.

  • Un utilisateur raconte qu’en appelant l’une des grandes banques britanniques, la banque l’encourageait toujours à s’inscrire à un programme du type « ma voix est mon mot de passe ». Au stade actuel des progrès de l’IA, cela lui semble tout simplement négligent.

  • La première pensée d’un utilisateur, et celle qui persiste, est que les usages immoraux ou criminels du clonage de voix dépassent largement les usages légitimes.

  • Le leader actuel du clonage de voix open source est RVC, et il aimerait voir en quoi cela diffère de cette approche.