OpenVoice : technologie de clonage vocal instantané
(github.com/myshell-ai)Présentation d'OpenVoice V1
- Les avantages d'OpenVoice sont les suivants :
- Reproduction précise du timbre vocal : OpenVoice reproduit fidèlement un timbre vocal de référence et peut générer de la parole dans plusieurs langues et avec différents accents.
- Contrôle flexible du style vocal : OpenVoice permet de contrôler finement le style vocal, comme les émotions et l'intonation, ainsi que d'autres paramètres de style tels que le rythme, les pauses et les inflexions.
- Clonage vocal multilingue en zero-shot : ni la langue de la voix générée ni celle de la voix de référence n'ont besoin d'être présentes dans un vaste jeu de données d'entraînement multilingue couvrant de nombreux locuteurs.
Présentation d'OpenVoice V2
- En avril 2024, OpenVoice V2 a été lancé. Il inclut toutes les fonctionnalités de V1 et ajoute les capacités suivantes :
- Meilleure qualité audio : OpenVoice V2 adopte une stratégie d'entraînement différente qui offre une meilleure qualité audio.
- Prise en charge multilingue native : l'anglais, l'espagnol, le français, le chinois, le japonais et le coréen sont nativement pris en charge dans OpenVoice V2.
- Utilisation commerciale gratuite : depuis avril 2024, V2 et V1 sont publiés sous licence MIT, ce qui permet une utilisation commerciale gratuite.
Adoption d'OpenVoice
- OpenVoice fournit la fonctionnalité de clonage vocal instantané de myshell.ai depuis mai 2023.
- D'ici novembre 2023, le modèle de clonage vocal avait été utilisé des dizaines de millions de fois par des utilisateurs du monde entier, et la plateforme a connu une croissance explosive de ses utilisateurs.
Principaux contributeurs
- Zengyi Qin (MIT, MyShell)
- Wenliang Zhao (Tsinghua University)
- Xumin Yu (Tsinghua University)
- Ethan Sun (MyShell)
Utilisation
- Pour les instructions détaillées d'utilisation, voir
usage.
Problèmes courants
- Pour les questions et réponses fréquentes, voir
QA. - La liste des questions et réponses sera mise à jour régulièrement.
Participation à la communauté
- Rejoignez la communauté Discord et sélectionnez le rôle "Developer" lors de l'inscription pour obtenir un accès exclusif aux canaux réservés aux développeurs.
- Ne manquez pas les discussions utiles et les opportunités de collaboration.
Citation
- Cette implémentation s'appuie sur plusieurs excellents projets, tels que TTS, VITS et VITS2.
- Merci pour leur remarquable travail.
Licence
- OpenVoice V1 et V2 sont sous licence MIT, avec une utilisation gratuite à la fois pour un usage commercial et pour la recherche.
L'avis de GN⁺
-
OpenVoice est un outil puissant qui permet de générer facilement des voix dans diverses langues et avec différentes émotions. Il semble pouvoir être utilisé dans de nombreux domaines comme le cinéma, l'animation ou les jeux vidéo.
-
Toutefois, le fait de pouvoir cloner une voix aussi facilement ouvre la porte à des usages malveillants. Par exemple, cela peut conduire à la création de vidéos deepfake utilisant la voix de célébrités sans autorisation. Il semble nécessaire de mettre en place des contre-mesures à ce sujet.
-
Parmi les produits commerciaux offrant des fonctions similaires à OpenVoice, on peut citer Lyrebird, Resemble.ai et Descript. Ils sont principalement utilisés pour le support client, les centres d'appel et le doublage vidéo.
-
Lors de l'adoption d'OpenVoice, il faut être attentif à la sécurité des données et aux questions de droits d'auteur. Il est également indispensable de vérifier le naturel de la voix générée ainsi que la précision de la prononciation.
-
Puisqu'il est publié en open source, on peut s'attendre à une amélioration continue de ses performances grâce à la participation de nombreux développeurs. Reste à voir s'il pourra offrir une qualité audio et des fonctionnalités au niveau des produits commerciaux.
1 commentaires
Avis sur Hacker News