5 points par GN⁺ 2024-04-28 | 1 commentaires | Partager sur WhatsApp

Présentation d'OpenVoice V1

  • Les avantages d'OpenVoice sont les suivants :
    • Reproduction précise du timbre vocal : OpenVoice reproduit fidèlement un timbre vocal de référence et peut générer de la parole dans plusieurs langues et avec différents accents.
    • Contrôle flexible du style vocal : OpenVoice permet de contrôler finement le style vocal, comme les émotions et l'intonation, ainsi que d'autres paramètres de style tels que le rythme, les pauses et les inflexions.
    • Clonage vocal multilingue en zero-shot : ni la langue de la voix générée ni celle de la voix de référence n'ont besoin d'être présentes dans un vaste jeu de données d'entraînement multilingue couvrant de nombreux locuteurs.

Présentation d'OpenVoice V2

  • En avril 2024, OpenVoice V2 a été lancé. Il inclut toutes les fonctionnalités de V1 et ajoute les capacités suivantes :
    • Meilleure qualité audio : OpenVoice V2 adopte une stratégie d'entraînement différente qui offre une meilleure qualité audio.
    • Prise en charge multilingue native : l'anglais, l'espagnol, le français, le chinois, le japonais et le coréen sont nativement pris en charge dans OpenVoice V2.
    • Utilisation commerciale gratuite : depuis avril 2024, V2 et V1 sont publiés sous licence MIT, ce qui permet une utilisation commerciale gratuite.

Adoption d'OpenVoice

  • OpenVoice fournit la fonctionnalité de clonage vocal instantané de myshell.ai depuis mai 2023.
  • D'ici novembre 2023, le modèle de clonage vocal avait été utilisé des dizaines de millions de fois par des utilisateurs du monde entier, et la plateforme a connu une croissance explosive de ses utilisateurs.

Principaux contributeurs

  • Zengyi Qin (MIT, MyShell)
  • Wenliang Zhao (Tsinghua University)
  • Xumin Yu (Tsinghua University)
  • Ethan Sun (MyShell)

Utilisation

  • Pour les instructions détaillées d'utilisation, voir usage.

Problèmes courants

  • Pour les questions et réponses fréquentes, voir QA.
  • La liste des questions et réponses sera mise à jour régulièrement.

Participation à la communauté

  • Rejoignez la communauté Discord et sélectionnez le rôle "Developer" lors de l'inscription pour obtenir un accès exclusif aux canaux réservés aux développeurs.
  • Ne manquez pas les discussions utiles et les opportunités de collaboration.

Citation

  • Cette implémentation s'appuie sur plusieurs excellents projets, tels que TTS, VITS et VITS2.
  • Merci pour leur remarquable travail.

Licence

  • OpenVoice V1 et V2 sont sous licence MIT, avec une utilisation gratuite à la fois pour un usage commercial et pour la recherche.

L'avis de GN⁺

  • OpenVoice est un outil puissant qui permet de générer facilement des voix dans diverses langues et avec différentes émotions. Il semble pouvoir être utilisé dans de nombreux domaines comme le cinéma, l'animation ou les jeux vidéo.

  • Toutefois, le fait de pouvoir cloner une voix aussi facilement ouvre la porte à des usages malveillants. Par exemple, cela peut conduire à la création de vidéos deepfake utilisant la voix de célébrités sans autorisation. Il semble nécessaire de mettre en place des contre-mesures à ce sujet.

  • Parmi les produits commerciaux offrant des fonctions similaires à OpenVoice, on peut citer Lyrebird, Resemble.ai et Descript. Ils sont principalement utilisés pour le support client, les centres d'appel et le doublage vidéo.

  • Lors de l'adoption d'OpenVoice, il faut être attentif à la sécurité des données et aux questions de droits d'auteur. Il est également indispensable de vérifier le naturel de la voix générée ainsi que la précision de la prononciation.

  • Puisqu'il est publié en open source, on peut s'attendre à une amélioration continue de ses performances grâce à la participation de nombreux développeurs. Reste à voir s'il pourra offrir une qualité audio et des fonctionnalités au niveau des produits commerciaux.

1 commentaires

 
GN⁺ 2024-04-28
Avis sur Hacker News
  • Un incident récent a vu un entraîneur sportif utiliser l’IA pour fabriquer un clip audio attribuant au proviseur des propos racistes, afin de le piéger. Cela montre que la loi et les forces de l’ordre doivent s’efforcer de suivre le rythme des avancées de l’IA.
  • On peut s’attendre à une aggravation de problèmes comme les fausses preuves historiques, les fausses fuites, les faux soutiens ou les fausses publicités. Alors que même de simples articles textuels sont rarement correctement vérifiés, les dommages causés par l’IA risquent d’être bien plus importants.
  • Cette technologie imite seulement le timbre de la voix, sans réellement répliquer la voix elle-même. La documentation le précise, mais le fait de continuer à parler de « clonage vocal » entretient la confusion.
  • Il est difficile de trouver un cas d’usage légitime pour cette technologie. Le risque d’abus pour tromper autrui est important.
  • Pour ceux qui veulent créer des choses intéressantes avec l’IA, il est important de trouver de bonnes sources d’information sur le sujet. Ce qui m’intéresse davantage que l’IA elle-même, ce sont les workflows intéressants qu’elle permet et les personnes qui les construisent.
  • Par rapport aux autres technologies d’IA de clonage vocal déjà publiées, cette sortie ne semble pas particulièrement pire. Il y a beaucoup de catastrophisme excessif et de réactions exagérées.
  • J’espère que le clonage vocal permettra de créer des livres audio avec la propre voix de l’auteur. Ce ne sera pas aussi bien qu’une vraie lecture par l’auteur, mais sa voix serait plus séduisante que celle d’un comédien de doublage.
  • Ce serait bien que le README inclue du code d’exemple.
  • J’ai essayé de « cloner » ma propre voix, mais le résultat ne lui ressemblait pas du tout. Je m’attendais à entendre ma voix parler français, mais ce n’était pas le cas. Le titre « clonage vocal instantané » est quelque peu trompeur.