OpenVoice : une technologie de clonage vocal instantané
(github.com/myshell-ai)- OpenVoice est un projet de clonage vocal instantané qui reproduit un timbre de référence pour générer de la voix dans plusieurs langues et accents, et dont les fonctionnalités V1 et V2 ont été publiées
- La V1 prend en charge la reproduction fidèle du timbre, le contrôle du style vocal — émotion, intonation, rythme, pauses, variations d’intonation — ainsi que le clonage vocal interlingue en zero-shot
- OpenVoice V2 a été publiée en avril 2024 et, tout en incluant les fonctionnalités de la V1, offre une meilleure qualité audio grâce à une stratégie d’entraînement différente
- La V2 prend en charge nativement l’anglais, l’espagnol, le français, le chinois, le japonais et le coréen en multilingue natif ; les V1 et V2 sont toutes deux disponibles sous MIT License et utilisables gratuitement à des fins commerciales et de recherche
- OpenVoice alimente depuis mai 2023 la fonction de clonage vocal instantané de myshell.ai et, jusqu’en novembre 2023, a été utilisée des dizaines de millions de fois par des utilisateurs du monde entier
Les capacités de clonage vocal d’OpenVoice
- OpenVoice est un projet destiné au clonage vocal instantané
- L’article associé est disponible sur arXiv
Fonctionnalités clés d’OpenVoice V1
-
Reproduction fidèle du timbre
- Permet de reproduire fidèlement un timbre de référence
- Permet de générer de la voix dans plusieurs langues et accents
-
Contrôle flexible du style vocal
- Permet de contrôler finement l’émotion et l’intonation
- Des paramètres de style comme le rythme, les pauses et les variations d’intonation peuvent également être contrôlés
-
Clonage vocal interlingue en zero-shot
- La langue de la voix générée et celle de la voix de référence n’ont pas besoin de figurer dans un grand jeu de données d’entraînement multilingue multi-locuteurs
Changements d’OpenVoice V2
- OpenVoice V2 a été publiée en avril 2024
- La V2 inclut toutes les fonctionnalités de la V1
- Elle adopte une stratégie d’entraînement différente pour offrir une meilleure qualité audio
- Elle prend en charge nativement l’anglais, l’espagnol, le français, le chinois, le japonais et le coréen
- Depuis avril 2024, la V2 comme la V1 sont publiées sous MIT License et l’usage commercial est gratuit
Utilisation réelle et périmètre de publication
- OpenVoice alimente depuis mai 2023 la fonction de clonage vocal instantané de myshell.ai
- Jusqu’en novembre 2023, le modèle de clonage vocal a été utilisé des dizaines de millions de fois par des utilisateurs du monde entier
- Le README inclut une démo Video
Utilisation, licence et projets de base
- Les instructions d’utilisation détaillées sont fournies dans la documentation usage du dépôt
- Les questions-réponses courantes sont traitées dans la documentation QA du dépôt
- OpenVoice V1 et V2 sont sous MIT License, avec un usage gratuit à des fins commerciales comme de recherche
- L’implémentation repose sur TTS, VITS et VITS2
1 commentaires
Avis de Hacker News
Même ces derniers jours, il y a eu ce cas : la police affirme que le directeur sportif a créé avec l’IA un faux extrait audio pour faire accuser le proviseur de propos racistes
https://apnews.com/article/ai-artificial-intelligence-principal-audio-maryland-baltimore-county-pikesville-853ed171369bcbb888eb54f55195cb9c
Bien sûr, la plupart ne feront toujours pas de fact-checking
Nous entrons dans une époque où la loi et son application vont devoir rattraper leur retard très vite
Des preuves historiques falsifiées, de fausses fuites, de faux soutiens publics, et même de fausses publicités deviennent possibles
Les gens avaient déjà la flemme de vérifier le moindre texte posté sur Facetok ; à l’avenir, ça risque d’être bien pire
Je dis à mes amis que, dans 5 à 10 ans, on ne pourra quasiment croire à 100 % que ce qui se passe directement sous nos yeux
On pourra choisir de s’en remettre à des médias de confiance pour vérifier, mais à cause de la polarisation, une grande partie du monde se dira déjà dupée et rejettera tout comme étant faux
Il suffit de regarder Sora ou les nouveaux modèles vocaux. Il y a quelques jours encore, un coach sportif de lycée a été arrêté pour avoir cloné la voix du proviseur et lui avoir fait dire des choses horribles ; il s’est fait prendre parce qu’il a utilisé sa propre adresse e-mail
Si l’on ajoute à cela le fait que le nouveau modèle Phi-mini de Microsoft approche les performances de GPT-3.5 avec 3,8 milliards de paramètres, c’est encore plus effrayant. GPT-3.5 en comptait 175 milliards, et l’optimisation de cette technologie n’a vraiment que cinq ans environ
Je veux descendre de ce manège fou de Mr Bones
On ne peut pas prévoir comment le risque que l’IA générative détruise la confiance va se concrétiser, mais je reste optimiste : au bout du compte, la créativité humaine l’emportera
Avec un peu d’entraînement, imiter la façon de parler de quelqu’un n’est pas si difficile ; les amateurs comme les acteurs professionnels le font couramment
La seule chose qui change, c’est que cela devient plus facile, et cela devrait plutôt aider tout le monde à comprendre à quel point ce genre de « preuve » est peu fiable
Android et iOS devraient prendre en charge par défaut des modificateurs de voix en temps réel, avec un bouton rapide pour les désactiver dans le composeur et une option pour les laisser désactivés avec les contacts connus
Il y aura bien des usages réellement déstabilisants, mais l’écart entre ce que la technologie rend nouvellement possible et ce qui l’était déjà est bien plus faible que ce que les gens disent
Ce n’est pas vraiment du clonage, c’est plutôt une copie du timbre. Même la documentation le présente ainsi, mais on continue à appeler ça du voice cloning
Je l’ai essayé : au lieu de mon accent doux habituel du Lancashire, ça sonnait américain, et ça ne me ressemblait pas du tout
VoiceShopAi peut transformer une voix jeune en voix âgée, une voix masculine en voix féminine, ou lui donner l’accent de n’importe quel pays
Je l’ai trouvé via https://github.com/metame-ai/awesome-audio-plaza, qui recense les nouveautés dans le domaine de l’audio
Quels seraient les cas d’usage légitimes de cette technologie ? Je peux imaginer une centaine d’usages pour tromper les autres, mais j’ai du mal à trouver des situations où l’on voudrait cloner ou reproduire sa propre voix
Un développeur de jeu indé pourrait créer des PNJ vivants, chacun avec une voix propre, dont les dialogues seraient pilotés par un grand modèle de langage
Pendant la production d’un film, on pourrait ajuster certaines répliques avec l’accord de l’acteur
Ce serait aussi utile pour des personnes qui perdent progressivement leur voix à cause de problèmes de santé, mais veulent continuer à communiquer
Cette technologie a clairement des cas d’usage légitimes. Personnellement, je pense que les usages frauduleux l’emportent sur les usages légitimes, mais il ne serait pas juste de dire qu’il n’existe aucune application légitime
Il faut criminaliser les abus et les réglementer strictement, pas tout interdire. Et dans le cas des logiciels et des petits modèles, une interdiction serait de toute façon assez difficile
Les livres audio pourraient aussi être lus avec une voix différente pour chaque personnage, au lieu de reposer sur un seul narrateur qui force son jeu
On pourrait prononcer un discours quand on a un rhume, mais sans tousser
Pour l’audio en transmission à faible bande passante, on pourrait n’envoyer que le texte et le faire restituer localement par un modèle vocal
On pourrait aussi s’en servir pour parler avec un être cher disparu
Et il y a aussi des usages humoristiques ou comiques
En supposant qu’une traduction parfaite ne soit pas utilisée à des fins malveillantes, je vois ça comme une application toujours utile et pas du tout maléfique
S’il pouvait retrouver au moins en partie « sa » voix à partir d’anciens enregistrements de sa parole, il en serait vraiment ravi
Malheureusement, je n’ai pas encore vu d’outil permettant de créer un modèle vocal qu’on puisse brancher dans le TTS Android qu’il utilise ou dans Windows
Où vaut-il mieux aller pour continuer à suivre ce domaine ? J’aimerais créer des choses avec ce genre d’outil, mais ma voix n’est pas vraiment adaptée à cet usage, donc ça m’intéresse beaucoup
Pour obtenir un rendu plus naturel, j’ai l’impression que la conversion voix-vers-voix serait préférable à la synthèse vocale à partir de texte. J’ai un peu essayé des outils comme RVC, mais je pense qu’il doit exister beaucoup d’excellents workflows que je rate dans tout le bruit autour de l’IA
Je suis surtout curieux de découvrir des workflows intéressants et des gens qui créent des choses amusantes avec l’IA
Il y a pas mal d’apocalypse et de drama exagéré ici. Par rapport aux méthodes existantes de clonage vocal par IA, déjà utilisables publiquement depuis environ un an, en quoi cette publication est-elle tellement pire ?
J’attends vraiment avec impatience des livres audio lus avec la voix de l’auteur grâce au clonage vocal
Bien sûr, ce ne sera pas aussi bien qu’une lecture faite directement par l’auteur, mais il y a quelque chose dans la voix de l’auteur qu’un comédien voix off ne peut pas apporter. Les comédiens ont une diction trop générique et exagérée, et personnellement je ressens moins de connexion
L’IA ne pourra pas faire ça. Même si elle devient très bonne, elle ne pourra pas lire dans l’esprit de l’auteur. Le résultat sera encore plus générique que celui d’un narrateur humain
Un comédien voix off formé fait ça bien mieux, et peut aussi moduler sa voix selon l’ambiance
Pour une autobiographie, pourquoi pas, mais dans ce cas l’auteur la lit généralement déjà lui-même
À la rigueur, un outil comme Descript, où l’auteur ajuste la prononciation après la narration, mais je ne veux pas de la voix de l’auteur
En revanche, je serais intéressé par l’entraînement d’un modèle sur la voix d’Allyson Johnson pour lui faire lire les livres Honor Harrington, et réenregistrer les 1 ou 2 volumes des spin-offs qui ont utilisé un autre narrateur. Ce narrateur était épouvantable
Ça pourrait aussi servir à harmoniser, dans la série Wheel of Time, les passages où les deux mêmes narrateurs changent la prononciation de plusieurs noms et mots d’un livre à l’autre. « Moghedien » est particulièrement frappant
Ils le prononcent d’au moins trois façons : Mo-gid-e-on, Mo-ga-dean, Mog-a-din
Et il y a aussi des milliers, voire des dizaines de milliers de livres qui ne sortiront jamais en audio sans IA
En lien : https://github.com/topics/voice-clone
Jusqu’ici, à chaque essai, ça sonnait juste comme une nouvelle voix aléatoire, ni ma voix cible ni la voix source
Je vois quelques notebooks Python, mais ça aurait été encore mieux d’avoir du code d’exemple dans le README