Ma voix volée par l’IA
(jeffgeerling.com)- Jeff Geerling a découvert dans un tutoriel promotionnel YouTube d’Elecrow une narration très proche de sa propre voix, mais il n’a jamais prononcé lui-même les phrases en question
- La voix semble avoir été utilisée dans plusieurs séries de vidéos liées à l’ESP32 et au RP2040, et Jeff soupçonne que ses vidéos YouTube ont pu servir à un outil de clonage vocal par IA
- Comme Jeff avait déjà testé le CrowPi 2 d’Elecrow par le passé, et qu’Elecrow est une entreprise qui fabrique des accessoires Raspberry Pi et des produits électroniques, le contexte est plus complexe qu’un simple litige avec un prestataire externe
- Le précédent juridique sur le clonage vocal par IA sans autorisation reste flou, mais l’usage de la voix d’autrui sans consentement dans un travail commercial renvoie à l’affaire Midler vs. Ford
- Avant toute demande de retrait ou action en justice, Jeff a d’abord envoyé un e-mail à Elecrow pour demander des explications et la suppression des vidéos, estimant qu’une entreprise devrait soit engager des comédiens de voix, soit collaborer officiellement avec les créateurs
Une voix ressemblant à celle de Jeff Geerling entendue dans une vidéo Elecrow
- En écoutant un clip YouTube d’Elecrow, Jeff Geerling a jugé que la narration lui semblait très familière, au point de ressembler fortement à sa propre voix
- La vidéo ne vient pas de la chaîne Jeff Geerling, mais d’Elecrow, et Jeff n’a jamais prononcé les phrases qu’on y entend
- Quelqu’un lui a envoyé le lien de la vidéo Elecrow par e-mail en lui disant que le son paraissait étrange, et Jeff pense que, comme sa chaîne traite du même sujet, certains spectateurs ont pu croire qu’il avait accepté de prêter sa voix à la vidéo d’Elecrow
- Elecrow est une entreprise qui fabrique des produits électroniques et des accessoires Raspberry Pi, et Jeff avait déjà testé le CrowPi 2 d’Elecrow par le passé
- Il n’avait jamais eu de mauvaise relation avec Elecrow auparavant, et il n’est donc pas encore certain à 100 % que cette affaire ait été intentionnelle
- Dans la version vidéo de son billet, on peut comparer directement le clip d’Elecrow et la voix naturelle de Jeff
Soupçon de clonage vocal par IA et réaction
- Jeff précise qu’il est difficile d’en apporter la preuve, mais estime néanmoins très probable qu’Elecrow ait utilisé l’une de ses vidéos YouTube dans un outil de clonage vocal par IA puis ait narré plusieurs tutoriels promotionnels avec cette voix
- Il cite comme exemples la série ESP32 et la série RP2040
- Après l’affaire où OpenAI aurait de fait reproduit la voix de Scarlett Johansson, il s’attendait à ce que les entreprises soient plus prudentes avec les voix IA utilisées dans les démos produit ou les tutoriels, mais ce cas va à l’encontre de cette attente
- À la connaissance de Jeff, il n’existe pas de précédent juridique clair sur le clonage vocal par IA non autorisé, mais il mentionne Midler vs. Ford comme précédent sur l’interdiction d’utiliser la voix d’autrui sans consentement dans un travail commercial
- Passer par un avocat a un coût, et il n’est pas non plus certain qu’un clonage vocal non consenti constitue une violation des conditions d’utilisation de YouTube
- Les demandes de Jeff sont claires
- Il ne faut pas voler la voix ou l’image d’autrui pour les associer à un produit ou à une vidéo
- Les marques devraient soit engager des comédiens de voix, soit rémunérer les créateurs de contenu pour collaborer avec eux
- Jeff a envoyé un e-mail à Elecrow pour demander le retrait d’au moins deux séries contenant une voix IA ressemblant à la sienne
- Il demande si cette voix a été intentionnellement conçue pour lui ressembler
- Il demande aussi confirmation sur un éventuel entraînement de la voix à partir de ses vidéos ou de ses contenus audio
- Il a voulu commencer par un e-mail avant toute demande de retrait sur YouTube ou action en justice, laissant ouverte la possibilité d’une erreur honnête, puisqu’il n’avait jamais eu de problème avec Elecrow auparavant
- Il est toutefois certain qu’Elecrow connaissait sa chaîne
- De 2020 à aujourd’hui, il a échangé plus de 43 e-mails avec 5 responsables marketing d’Elecrow
- Parmi eux, 22 e-mails datent de cette année
- Le 2 avril 2024, un responsable marketing d’Elecrow lui a envoyé un e-mail disant vouloir discuter d’un partenariat rémunéré
- Dans une mise à jour du 23 septembre, le CEO d’Elecrow a répondu, et Jeff a publié un billet de suivi avec cette réponse et ses réflexions sur le clonage vocal par IA
1 commentaires
Avis sur Hacker News
Les peurs liées à l’IA varient selon les personnes, mais ce qui est particulièrement effrayant, c’est le cas où l’IA servirait à faire croire que quelqu’un a tenu des propos blasphématoires.
Dans mon pays, il suffit déjà que quelque chose paraisse être une insulte, même mineure, réelle ou imaginaire, pour qu’une foule de lyncheurs pour blasphème se forme. Ils débarquent, lynchent la personne et brûlent son corps, puis, pendant que la famille se cache, renie la victime et publie une vidéo où elle dit pardonner à la foule, les émeutiers se partagent des sucreries.
C’était déjà comme ça avant même que l’IA devienne facilement accessible. On peut dire que c’est une “histoire de pays sous-développé”, mais cela ne s’arrêtera pas là et se propagera. On ne peut pas mettre un couteau dans les mains d’un enfant en bas âge et lui reprocher ensuite d’avoir poignardé quelqu’un.
Indépendamment de la réputation, de la sécurité ou du droit d’auteur, cela peut faire tuer des gens, et il n’existe aucun outil pour le contrôler.
https://x.com/search?q=blasphemy
L’avenir me fait peur.
S’ils restent limités, réglementés ou difficiles d’accès, les gens continueront à penser que les vidéos et les enregistrements audio ne peuvent pas être manipulés. Mais si le clonage vocal devient une blague facile et amusante avec une appli à 1 dollar, et qu’on laisse les ados faire des canulars téléphoniques avec, cela pourrait vite s’ancrer dans la perception du grand public.
La semaine dernière, ma mère de 70 ans m’a demandé si elle devait supprimer le message d’accueil de sa messagerie vocale. Elle se demandait si quelqu’un ne pouvait pas lui voler sa voix avec ça ; j’ai été surpris, elle avait probablement entendu ça sur Fox ou quelque chose du genre.
Les prochaines années seront difficiles, mais j’espère qu’elles passeront vite.
Aujourd’hui, si un utilisateur a publié pas mal de commentaires, il est très probable qu’une analyse de corrélation permette de lever son anonymat. Même si ce n’est pas précis à 100 %, son style peut être volé. C’est peut-être de la prudence excessive, mais rien ne garantit que nous n’entrerons pas dans une forêt obscure, et il y a des raisons de penser que nous allons dans cette direction.
En même temps, je me demande aussi si refuser de se retirer dans l’ombre n’est pas une façon de ne pas abandonner.
C’est un peu comme sur les réseaux sociaux tels que Reddit : pendant des années, il y a eu des “chasses au coupable” ou du “doxxing”, puis les modérateurs ont fini par comprendre que les foules en ligne se trompaient souvent et ont généralement interdit ces pratiques.
Mais beaucoup de gens seront blessés avant que des lois soient adoptées ou que l’idée selon laquelle une vidéo a plus de chances d’être fausse que vraie devienne du bon sens. Cela pourrait prendre plus de 5 ans, et le problème est aussi que les lois ne sont généralement créées qu’après qu’un préjudice a été démontré.
Je ne vois pas pourquoi l’usage de l’IA permettrait d’échapper à la jurisprudence Midler vs. Ford.
Au contraire, si la voix a été répliquée par IA plutôt qu’imitée par un autre comédien de doublage, l’argument de défense me semble encore plus faible.
Dans beaucoup d’autres États, les lois et précédents liés à ce qu’on appelle le droit à l’image et à la personnalité sont dispersés et très variables. Il est loin d’exister un consensus général entre les États sur l’opportunité de reconnaître ce concept, sur la manière d’en définir les contours, et même sur la façon de procéder.
“...cette observation s’applique au chant, et en particulier au chant d’une chanteuse célèbre. Une chanteuse se révèle dans sa chanson. Usurper sa voix, c’est pirater son identité...”
“Nous n’avons pas besoin de juger, et nous ne jugeons pas, que toutes les imitations de voix à des fins publicitaires sont susceptibles de poursuites. Nous jugeons seulement que lorsqu’une voix distinctive d’une chanteuse professionnelle largement connue est délibérément imitée pour vendre un produit, le vendeur s’est approprié quelque chose qui ne lui appartient pas...”
Merci d’avoir rappelé la jurisprudence, mais elle n’est qu’un point de départ ; au bout du compte, il faut établir des principes qui vont au-delà de la jurisprudence.
Quand la technologie apporte des capacités sans précédent, soit la société trace des limites pour qu’elle fonctionne en faveur des gens plutôt qu’à leur détriment, soit elle nous rapproche d’un monde où les puissants font ce qu’ils veulent et où les faibles, ou ceux qui roulent tout juste en Camry, doivent encaisser.
Le texte est encore en cours d’élaboration à la Chambre, mais il bénéficie d’un soutien bipartisan. Vous pouvez contacter votre élu de circonscription pour lui demander de le coparrainer ou de voter pour.
https://www.cbsnews.com/losangeles/news/california-bills-pro...
https://salazar.house.gov/media/press-releases/salazar-intro...
https://files.constantcontact.com/1849eea4801/695cfd71-1d24-...
Il faudrait trouver une organisation politique à but non lucratif comme l’ACLU pour financer les appels successifs, et supporter entre-temps une couverture médiatique et une attention négatives.
Je suis entièrement d’accord pour dire que la classe Camry a besoin de défenseurs, mais l’un des principes clés de la pratique moderne est de laisser chacun choisir le niveau de contribution qu’il peut assumer. Il faut encourager, mettre en avant et donner du courage, mais pas faire honte.
Quoi qu’il en soit, ce billet de blog suffira probablement. Très peu de gens prendront le parti de ceux qui volent la voix des autres, et contrairement au scraping du NYT ou des archives de deviantart comme données d’entraînement, cela provoque intuitivement un malaise beaucoup plus fort. La honte publique ne permettra pas d’obtenir de gros dommages et intérêts, mais cela ne semblait pas non plus être l’objectif.
Si les grands modèles de langage sont la machine à remix ultime, je me demande si toute personne disposant de génération augmentée par récupération (RAG) n’est pas une sorte de DJ numérique.
Dans l’information numérique, il devient même difficile de savoir ce qu’est le vol. Faute de jurisprudence, on a l’impression d’être dans un Far West du droit de la propriété intellectuelle et du copyright.
Si même une superstar comme Scarlett Johansson ne peut rien faire d’autre qu’écrire une lettre douloureuse au sujet de la tentative d’OpenAI d’imiter le persona de « Her », que peut faire un nerd de niche relativement ordinaire ?
Sans doute à peu près comme Geerling : être tout aussi triste, en colère et frustré, tout en disant « s’il vous plaît, respectez de bonne foi les règles d’honneur ».
Dans ce cas, cette notoriété peut aussi servir à riposter. Par exemple, il est difficile d’imaginer que cette affaire finisse par être bonne pour la réputation d’Elecrow. La prochaine fois que je verrai le nom de cette entreprise, je penserai : « ah, la boîte qui trompe les gens », et ce n’est pas bon pour eux.
Ce qui m’inquiète davantage, c’est l’usage qui en serait fait pour se débarrasser de quelqu’un qu’on n’aime pas. On peut par exemple imaginer un enseignant à l’université qui n’a rien fait de mal, mais qu’un étudiant mécontent de ses notes ferait passer, grâce au clonage vocal, pour quelqu’un ayant tenu des propos justifiant son licenciement. Si le clonage vocal devient excellent, comment une telle personne pourrait-elle se défendre ? Ce sera difficile tant que les enregistrements ne seront pas devenus si courants qu’ils ne seront plus jugés fiables.
Pour qu’il y ait vol, il faut que la victime perde le bénéfice de l’objet volé. Le copier-coller ne fait que faire s’effondrer un château de cartes qui menace de prison et de pauvreté les gens qui utilisent des mèmes revendiqués sans payer.
Si je faisais partie d’un jury dans une affaire de violation de copyright où l’accusé est un humain et non une entreprise, je voterais systématiquement pour l’annulation par le jury.
Eric Schmidt n’a-t-il pas récemment dit de voler d’abord, puis de laisser les avocats régler le problème plus tard en cas de succès ?[0,1]
[0] https://x.com/alexeheath/status/1823873344133062680
[1] Plus précisément, il voulait dire voler légalement, mais je ne sais pas ce que cela signifie.
Si le monde continue de ruer et de donner des coups par en dessous pour vous faire tomber, c’est peut-être que l’endroit où vous vous tenez n’est pas le bon.
Le vol n’est pas défini pour les objets dotés d’une interface
.copy(). Pourtant, si l’on regarde de près, il existe encore.Les gens doivent ajuster leurs attentes, pas la loi. Les ordinateurs ont remplacé les caissiers, et maintenant le jeu vocal remplace les comédiens de doublage. La popularité n’a en réalité pas grande importance, et s’il n’y a que les personnes populaires qui peuvent conserver leur emploi, n’est-ce pas injuste aussi ?
Même en retirant la partie IA, j’ai l’impression qu’il s’agit d’une grave déformation de l’opinion de Jeff, ou d’une utilisation non autorisée de son image.
En utilisant sa voix, cela crée une garantie implicite et manipulée concernant le produit, et cela me paraît très problématique. Il devait déjà exister des lois traitant ce genre de cas bien avant l’arrivée de l’IA.
Depuis longtemps, certaines personnes savent très bien imiter des voix, et elles utilisaient généralement ce talent pour la comédie ou la satire, pas pour déformer les opinions d’autrui. Je ne suis pas juriste, mais cela me semble reposer sur une base juridique assez solide, et le fait de représenter quelqu’un de manière trompeuse devrait être relativement facile à traiter légalement.
La différence, c’est la démocratisation. On est passé d’une situation où seules de très rares personnes possédaient ce talent à une situation où presque n’importe qui avec un ordinateur peut faire quelque chose de similaire. L’application de la loi devient donc beaucoup plus difficile, et si la solution nécessite une action en justice, elle risque d’être hors de portée pour quelqu’un comme Jeff Geerling.
C’est peut-être moi qui suis bizarre, mais je ne trouve pas que cette voix lui ressemble tant que ça.
Elle est un peu similaire, mais différente ; la hauteur est légèrement plus élevée, elle est plus nasale, et l’intonation est aussi un peu différente.
https://www.youtube.com/watch?v=UMofZIT9FcQ
Les différences d’intonation et de hauteur mentionnées viennent simplement du fait qu’il s’agit d’une voix générée par IA, et non d’une parole humaine.
Leur argument sera probablement qu’ils ont mélangé d’autres voix plus agréables pour créer une différenciation suffisante.
Le problème est de savoir qui décide à quel point cela doit être différent pour échapper à l’appropriation de ressemblance d’image ou de voix. Le « roi de la voix de geek générique » revendiquera une ressemblance excessive, et la partie soupçonnée ne publiera pas l’ensemble du processus.
Le réglage à l’oreille des voix IA deviendra bientôt possible, donc demander à être exclu de l’entraînement au motif qu’on est une voix représentative d’un domaine donné ne rendra pas non plus les choses sûres. Une sorte d’autorité des voix aurait quelque chose de sinistre.
En tant que petit YouTuber tech, j’ai déjà été en contact avec Elecrow.
À ma connaissance, chez Elecrow comme dans plusieurs autres entreprises, les employés reçoivent des récompenses, des promotions ou des commissions lorsqu’ils concluent des partenariats de long terme ou des collaborations vidéo avec des YouTubers. Quelqu’un a peut-être pensé qu’il serait malin de cloner la voix de Jeff, puisque la chaîne de Jeff est assez connue dans ce domaine.
Pour Elecrow, ce n’est clairement pas une bonne publicité pour l’instant, et je me demande aussi s’ils reconnaîtront que c’était intentionnel.
L’idée que le timbre d’une voix volée serait important est l’un des aspects les plus court-termistes de l’investissement dans l’IA. C’est une logique à la Hollywood du genre « ne créons surtout rien de nouveau » qui sert de moteur
Dans environ 5 ans, les voix IA seront personnalisées et plus agréables à écouter que de vrais humains. Elles ne seront pas limitées par la fatigue des cordes vocales, pourront être modifiées à volonté, et ajustées facilement en mesurant l’engagement des utilisateurs
À l’avenir, l’essentiel sera de régler finement la sortie vocale et d’observer l’engagement
C’est précisément pour cela qu’ils ont choisi sa voix
Une voix IA peut être esthétiquement indiscernable, voire préférée, mais elle ne peut pas contenir la réputation ni l’authenticité. Celles-ci ont de la valeur parce qu’elles sont, par nature, rares. Au contraire, dans un océan de contenus médiocres génériques et banalisés, la demande pour des personnes ayant une valeur de marque unique risque de ne pas baisser, mais d’augmenter. C’est aussi pour cela que les influenceurs gagnent beaucoup d’argent dans la publicité aujourd’hui
« formation », vraiment
Dès maintenant, ils proposent plusieurs techniques de clonage vocal à partir de 30 secondes d’audio. Avec 30 secondes, ça ressemble plus ou moins à la voix cible sans être exactement identique ; avec plusieurs heures d’audio, ça sonne comme une vraie personne. En plus, on peut ajuster la voix avec quelques paramètres, ou même en créer une nouvelle uniquement à partir d’une définition de paramètres
Vu sa qualité, la voix dans la vidéo pourrait être une voix de « clonage instantané » créée avec seulement quelques secondes d’entrée. Pour un clonage plus avancé, il faut prouver qu’il s’agit bien de sa propre voix
[1] https://elevenlabs.io
Dans ce contexte, des entreprises pourraient vouloir acheter leurs voix. Ce n’est pas seulement une question de son agréable : la valeur de la familiarité est énorme. Par exemple, ElevenLabs a même acheté aux familles les droits vocaux de personnes décédées
Mais en dehors de ce genre de contexte particulier teinté de nostalgie, je ne vois pas pourquoi on ne créerait pas une voix synthétique dès le départ
Tout le monde prendra ça comme un jeu jusqu’à ce que quelqu’un fabrique un enregistrement donnant l’impression qu’une autre personne avoue un crime, et que celui-ci soit utilisé au tribunal
C’est exactement ce que je déteste dans l’IA
Mais si les preuves vidéo et audio deviennent irrecevables, qu’est-ce qu’on est censés faire ?
Cela dit, dans les deux cas, ça me semble plus important devant le tribunal de l’opinion que devant un vrai tribunal
Préserver les formats de preuve n’est pas vraiment l’enjeu principal quand on évalue une nouvelle technologie utile
Il existe des centaines d’outils de clonage vocal, donc il est normal que du contenu avec voix clonée apparaisse
C’est comparable à l’utilisation non autorisée de l’image de quelqu’un. Les plateformes et les équipes d’exploitation ont déjà des procédures de signalement et de suppression. Il semble qu’il faille quelque chose de similaire pour la voix