5 points par GN⁺ 2024-04-28 | 1 commentaires | Partager sur WhatsApp
  • OpenVoice est un projet de clonage vocal instantané qui reproduit un timbre de référence pour générer de la voix dans plusieurs langues et accents, et dont les fonctionnalités V1 et V2 ont été publiées
  • La V1 prend en charge la reproduction fidèle du timbre, le contrôle du style vocal — émotion, intonation, rythme, pauses, variations d’intonation — ainsi que le clonage vocal interlingue en zero-shot
  • OpenVoice V2 a été publiée en avril 2024 et, tout en incluant les fonctionnalités de la V1, offre une meilleure qualité audio grâce à une stratégie d’entraînement différente
  • La V2 prend en charge nativement l’anglais, l’espagnol, le français, le chinois, le japonais et le coréen en multilingue natif ; les V1 et V2 sont toutes deux disponibles sous MIT License et utilisables gratuitement à des fins commerciales et de recherche
  • OpenVoice alimente depuis mai 2023 la fonction de clonage vocal instantané de myshell.ai et, jusqu’en novembre 2023, a été utilisée des dizaines de millions de fois par des utilisateurs du monde entier

Les capacités de clonage vocal d’OpenVoice

  • OpenVoice est un projet destiné au clonage vocal instantané
  • L’article associé est disponible sur arXiv

Fonctionnalités clés d’OpenVoice V1

  • Reproduction fidèle du timbre

    • Permet de reproduire fidèlement un timbre de référence
    • Permet de générer de la voix dans plusieurs langues et accents
  • Contrôle flexible du style vocal

    • Permet de contrôler finement l’émotion et l’intonation
    • Des paramètres de style comme le rythme, les pauses et les variations d’intonation peuvent également être contrôlés
  • Clonage vocal interlingue en zero-shot

    • La langue de la voix générée et celle de la voix de référence n’ont pas besoin de figurer dans un grand jeu de données d’entraînement multilingue multi-locuteurs

Changements d’OpenVoice V2

  • OpenVoice V2 a été publiée en avril 2024
  • La V2 inclut toutes les fonctionnalités de la V1
  • Elle adopte une stratégie d’entraînement différente pour offrir une meilleure qualité audio
  • Elle prend en charge nativement l’anglais, l’espagnol, le français, le chinois, le japonais et le coréen
  • Depuis avril 2024, la V2 comme la V1 sont publiées sous MIT License et l’usage commercial est gratuit

Utilisation réelle et périmètre de publication

  • OpenVoice alimente depuis mai 2023 la fonction de clonage vocal instantané de myshell.ai
  • Jusqu’en novembre 2023, le modèle de clonage vocal a été utilisé des dizaines de millions de fois par des utilisateurs du monde entier
  • Le README inclut une démo Video

Utilisation, licence et projets de base

  • Les instructions d’utilisation détaillées sont fournies dans la documentation usage du dépôt
  • Les questions-réponses courantes sont traitées dans la documentation QA du dépôt
  • OpenVoice V1 et V2 sont sous MIT License, avec un usage gratuit à des fins commerciales comme de recherche
  • L’implémentation repose sur TTS, VITS et VITS2

1 commentaires

 
GN⁺ 2024-04-28
Avis de Hacker News
  • Même ces derniers jours, il y a eu ce cas : la police affirme que le directeur sportif a créé avec l’IA un faux extrait audio pour faire accuser le proviseur de propos racistes
    https://apnews.com/article/ai-artificial-intelligence-principal-audio-maryland-baltimore-county-pikesville-853ed171369bcbb888eb54f55195cb9c

    • C’est justement pour ça qu’il faut rendre cette technologie largement utilisée et bien connue. Il faut que les gens soient plus vigilants, ne croient pas n’importe quoi et vérifient les sources
      Bien sûr, la plupart ne feront toujours pas de fact-checking
  • Nous entrons dans une époque où la loi et son application vont devoir rattraper leur retard très vite
    Des preuves historiques falsifiées, de fausses fuites, de faux soutiens publics, et même de fausses publicités deviennent possibles
    Les gens avaient déjà la flemme de vérifier le moindre texte posté sur Facetok ; à l’avenir, ça risque d’être bien pire

    • On dirait une transition de l’hypernormalisation vers l’hyperréel
      Je dis à mes amis que, dans 5 à 10 ans, on ne pourra quasiment croire à 100 % que ce qui se passe directement sous nos yeux
      On pourra choisir de s’en remettre à des médias de confiance pour vérifier, mais à cause de la polarisation, une grande partie du monde se dira déjà dupée et rejettera tout comme étant faux
      Il suffit de regarder Sora ou les nouveaux modèles vocaux. Il y a quelques jours encore, un coach sportif de lycée a été arrêté pour avoir cloné la voix du proviseur et lui avoir fait dire des choses horribles ; il s’est fait prendre parce qu’il a utilisé sa propre adresse e-mail
      Si l’on ajoute à cela le fait que le nouveau modèle Phi-mini de Microsoft approche les performances de GPT-3.5 avec 3,8 milliards de paramètres, c’est encore plus effrayant. GPT-3.5 en comptait 175 milliards, et l’optimisation de cette technologie n’a vraiment que cinq ans environ
      Je veux descendre de ce manège fou de Mr Bones
    • La confiance est une dépendance fondamentale de l’existence humaine. Elle est nécessaire non seulement à la civilisation, mais aussi aux toutes petites communautés et aux échanges de base d’idées, de biens et de services
      On ne peut pas prévoir comment le risque que l’IA générative détruise la confiance va se concrétiser, mais je reste optimiste : au bout du compte, la créativité humaine l’emportera
    • Un fichier audio numérique ne constitue pas vraiment une preuve de quoi que ce soit. Même sans clonage vocal, on peut couper, coller et monter de l’audio pour obtenir à peu près ce qu’on veut
      Avec un peu d’entraînement, imiter la façon de parler de quelqu’un n’est pas si difficile ; les amateurs comme les acteurs professionnels le font couramment
      La seule chose qui change, c’est que cela devient plus facile, et cela devrait plutôt aider tout le monde à comprendre à quel point ce genre de « preuve » est peu fiable
    • C’est déjà un gros problème, mais le problème encore plus grave, c’est le scénario où un appel de spam récupère une dizaine de secondes de ma voix, puis appelle ma banque ou ma famille avec ma voix
      Android et iOS devraient prendre en charge par défaut des modificateurs de voix en temps réel, avec un bouton rapide pour les désactiver dans le composeur et une option pour les laisser désactivés avec les contacts connus
    • J’en suis venu à penser que l’emballement autour des usages criminels ou malveillants de l’IA ressemble aux autres emballements autour de l’IA
      Il y aura bien des usages réellement déstabilisants, mais l’écart entre ce que la technologie rend nouvellement possible et ce qui l’était déjà est bien plus faible que ce que les gens disent
  • Ce n’est pas vraiment du clonage, c’est plutôt une copie du timbre. Même la documentation le présente ainsi, mais on continue à appeler ça du voice cloning
    Je l’ai essayé : au lieu de mon accent doux habituel du Lancashire, ça sonnait américain, et ça ne me ressemblait pas du tout

    • Avec https://voiceshopai.github.io, on devrait pouvoir se rapprocher davantage de l’accent d’origine
      VoiceShopAi peut transformer une voix jeune en voix âgée, une voix masculine en voix féminine, ou lui donner l’accent de n’importe quel pays
      Je l’ai trouvé via https://github.com/metame-ai/awesome-audio-plaza, qui recense les nouveautés dans le domaine de l’audio
    • Moi aussi, je l’ai testé avec ma voix, et heureusement ça ne ressemblait absolument pas à ma voix
    • Le titre ou le nom n’est pas terrible. Plus largement, j’ai parfois l’impression que les commentaires HN deviennent de plus en plus des réactions au titre façon Reddit, plutôt que d’examiner l’article original ou la technologie elle-même
  • Quels seraient les cas d’usage légitimes de cette technologie ? Je peux imaginer une centaine d’usages pour tromper les autres, mais j’ai du mal à trouver des situations où l’on voudrait cloner ou reproduire sa propre voix

    • Après avoir enregistré un podcast, on pourrait s’en servir pour corriger seulement quelques mots sans devoir réenregistrer
      Un développeur de jeu indé pourrait créer des PNJ vivants, chacun avec une voix propre, dont les dialogues seraient pilotés par un grand modèle de langage
      Pendant la production d’un film, on pourrait ajuster certaines répliques avec l’accord de l’acteur
      Ce serait aussi utile pour des personnes qui perdent progressivement leur voix à cause de problèmes de santé, mais veulent continuer à communiquer
      Cette technologie a clairement des cas d’usage légitimes. Personnellement, je pense que les usages frauduleux l’emportent sur les usages légitimes, mais il ne serait pas juste de dire qu’il n’existe aucune application légitime
      Il faut criminaliser les abus et les réglementer strictement, pas tout interdire. Et dans le cas des logiciels et des petits modèles, une interdiction serait de toute façon assez difficile
    • Ce n’est qu’une question de temps avant que des agents comme Alexa utilisent de meilleures voix personnalisées
      Les livres audio pourraient aussi être lus avec une voix différente pour chaque personnage, au lieu de reposer sur un seul narrateur qui force son jeu
      On pourrait prononcer un discours quand on a un rhume, mais sans tousser
      Pour l’audio en transmission à faible bande passante, on pourrait n’envoyer que le texte et le faire restituer localement par un modèle vocal
      On pourrait aussi s’en servir pour parler avec un être cher disparu
      Et il y a aussi des usages humoristiques ou comiques
    • On dirait que tu n’y as pas beaucoup réfléchi. La première chose qui me vient à l’esprit, c’est d’utiliser le clonage de sa propre voix pour la traduction en temps réel
      En supposant qu’une traduction parfaite ne soit pas utilisée à des fins malveillantes, je vois ça comme une application toujours utile et pas du tout maléfique
    • J’ai un ami dont le larynx est paralysé, et il tape souvent sur son téléphone ou un petit ordinateur portable pour communiquer
      S’il pouvait retrouver au moins en partie « sa » voix à partir d’anciens enregistrements de sa parole, il en serait vraiment ravi
      Malheureusement, je n’ai pas encore vu d’outil permettant de créer un modèle vocal qu’on puisse brancher dans le TTS Android qu’il utilise ou dans Windows
    • Je joue beaucoup à Counter-Strike, et quand des gens insultent l’équipe adverse avec la voix de Joe Biden, c’est assez drôle
  • Où vaut-il mieux aller pour continuer à suivre ce domaine ? J’aimerais créer des choses avec ce genre d’outil, mais ma voix n’est pas vraiment adaptée à cet usage, donc ça m’intéresse beaucoup
    Pour obtenir un rendu plus naturel, j’ai l’impression que la conversion voix-vers-voix serait préférable à la synthèse vocale à partir de texte. J’ai un peu essayé des outils comme RVC, mais je pense qu’il doit exister beaucoup d’excellents workflows que je rate dans tout le bruit autour de l’IA
    Je suis surtout curieux de découvrir des workflows intéressants et des gens qui créent des choses amusantes avec l’IA

    • Clairement Twitter. Tout y est annoncé et discuté
  • Il y a pas mal d’apocalypse et de drama exagéré ici. Par rapport aux méthodes existantes de clonage vocal par IA, déjà utilisables publiquement depuis environ un an, en quoi cette publication est-elle tellement pire ?

  • J’attends vraiment avec impatience des livres audio lus avec la voix de l’auteur grâce au clonage vocal
    Bien sûr, ce ne sera pas aussi bien qu’une lecture faite directement par l’auteur, mais il y a quelque chose dans la voix de l’auteur qu’un comédien voix off ne peut pas apporter. Les comédiens ont une diction trop générique et exagérée, et personnellement je ressens moins de connexion

    • Ce qu’un auteur apporte, même s’il n’est pas un lecteur entraîné, c’est que l’intonation correspond exactement à la manière dont il voulait que les phrases du livre soient dites et comprises
      L’IA ne pourra pas faire ça. Même si elle devient très bonne, elle ne pourra pas lire dans l’esprit de l’auteur. Le résultat sera encore plus générique que celui d’un narrateur humain
    • C’est justement ce qui m’inquiète. Je ne vois pas pourquoi un livre devrait être lu par son auteur
      Un comédien voix off formé fait ça bien mieux, et peut aussi moduler sa voix selon l’ambiance
      Pour une autobiographie, pourquoi pas, mais dans ce cas l’auteur la lit généralement déjà lui-même
    • Si les narrateurs de livres audio vous semblent trop génériques, j’ai de mauvaises nouvelles concernant la narration par IA entraînée sur la voix de l’auteur
    • Je n’ai presque jamais envie qu’un livre me soit lu par son auteur. Un auteur est quelqu’un qui écrit bien, et un livre audio ne consiste pas simplement à « lire » les mots sur la page
      À la rigueur, un outil comme Descript, où l’auteur ajuste la prononciation après la narration, mais je ne veux pas de la voix de l’auteur
      En revanche, je serais intéressé par l’entraînement d’un modèle sur la voix d’Allyson Johnson pour lui faire lire les livres Honor Harrington, et réenregistrer les 1 ou 2 volumes des spin-offs qui ont utilisé un autre narrateur. Ce narrateur était épouvantable
      Ça pourrait aussi servir à harmoniser, dans la série Wheel of Time, les passages où les deux mêmes narrateurs changent la prononciation de plusieurs noms et mots d’un livre à l’autre. « Moghedien » est particulièrement frappant
      Ils le prononcent d’au moins trois façons : Mo-gid-e-on, Mo-ga-dean, Mog-a-din
    • Ce serait bien d’avoir un choix de narrateurs pour chaque livre audio. Il y a des narrateurs que j’adore, et d’autres que je ne peux tout simplement pas écouter
      Et il y a aussi des milliers, voire des dizaines de milliers de livres qui ne sortiront jamais en audio sans IA
  • En lien : https://github.com/topics/voice-clone

    • Je me demande si quelqu’un sait lesquels, parmi ceux-là, fonctionnent vraiment
      Jusqu’ici, à chaque essai, ça sonnait juste comme une nouvelle voix aléatoire, ni ma voix cible ni la voix source
  • Je vois quelques notebooks Python, mais ça aurait été encore mieux d’avoir du code d’exemple dans le README