- Eleven v3 (Alpha) est le modèle de conversion texte-parole (TTS) le plus expressif jamais conçu, avec un contrôle précis des émotions et des effets vocaux
- Grâce aux audio tags, il est possible de combiner librement différents éléments vocaux comme les émotions, le ton, l’intention ou les effets sonores
- Il permet de générer un audio naturel avec plusieurs intervenants en conversation, et prend en charge des voix proches de l’humain dans plus de 70 langues
- Par rapport à v2, l’éventail des émotions vocales et des effets pris en charge a été largement étendu, et les utilisateurs de l’interface bénéficient d’une réduction de 80 % jusqu’à fin juin 2025
- Le support API sera bientôt disponible, et différents tags vocaux et contextuels sont présentés dans le guide de prompting
Présentation d’Eleven v3
- Eleven v3 (alpha) est un modèle Text to Speech (TTS) de nouvelle génération qui se distingue des versions précédentes par sa capacité d’expression émotionnelle et de génération vocale immersive
- Ce modèle convertit le texte en parole en exprimant émotions, intonation et rythme d’une manière proche de la lecture humaine
- Les utilisateurs peuvent contrôler finement, à l’aide des audio tags, les émotions de la voix, le ton, les effets sonores et même les sons d’ambiance
- En insérant dans le texte des tags d’émotion, d’effet et de mise en scène, il devient possible de produire un audio riche et multidimensionnel qui va bien au-delà d’une simple narration, avec un net gain en immersion et en réalisme
Génération de dialogues à plusieurs intervenants
- Prise en charge de la génération d’audio où plusieurs intervenants partagent naturellement le contexte et les émotions au fil d’une conversation
- La prosodie, les émotions et les tags propres à chaque intervenant sont pris en compte pour obtenir une synthèse vocale proche de l’humain
Prise en charge multilingue
- Plus de 70 langues sont officiellement prises en charge, dont l’afrikaans, l’arabe, l’allemand, le chinois et le coréen
- Le modèle reproduit naturellement les intonations, prononciations et accents propres à chaque langue
- Son potentiel d’usage est élevé dans de nombreux domaines, notamment les services internationaux, les contenus éducatifs et les projets d’accessibilité à l’échelle mondiale
Principales différences entre v3 et v2
- Dialogue Mode : prise en charge des dialogues à plusieurs intervenants
- Prise en charge des Audio Tags : possibilité d’utiliser divers tags audio pour les émotions, l’intention, les effets, etc.
- Plage des émotions et effets : v2 se limitait à des tags de base comme les pauses, tandis que v3 permet d’appliquer des émotions riches et des effets audio variés
- Langues : v3 prend en charge 70+ langues, contre 29 pour v2
- afrikaans, arabe, arménien, assamais, azéri, biélorusse, bengali, bosnien, bulgare, catalan, cebuano, chichewa, croate, tchèque, danois, néerlandais, anglais, estonien, filipino, finnois, français, galicien, géorgien, allemand, grec, gujarati, haoussa, hébreu, hindi, hongrois, islandais, indonésien, irlandais, italien, japonais, javanais, kannada, kazakh, kirghiz, coréen, letton, lingala, lituanien, luxembourgeois, macédonien, malais, malayalam, chinois mandarin, marathi, népalais, norvégien, pachto, persan, polonais, portugais, pendjabi, roumain, russe, serbe, sindhi, slovaque, slovène, somali, espagnol, swahili, suédois, tamoul, télougou, thaï, turc, ukrainien, ourdou, vietnamien, gallois, etc.
Qualité vocale et expérience utilisateur
- Lors de la synthèse, il est possible d’obtenir des fichiers audio peu bruités et de haute résolution
- Des réglages fins sont possibles sur la longueur des phrases, les nuances émotionnelles ou encore la vitesse d’élocution, ce qui facilite la création de voix sur mesure
- Le modèle peut exprimer des émotions dynamiques et des styles d’énonciation difficiles à reproduire avec les solutions TTS existantes
Compétitivité et possibilités d’application
- Les créateurs de contenu, développeurs et entreprises peuvent l’appliquer immédiatement aux livres audio, jeux, publicités ou services d’accessibilité
- Un modèle unique permet de proposer des services multilingues et polyvalents, avec à la clé des gains de temps et de coût
- Dès la phase d’open alpha, il offre déjà un niveau de qualité vocale et de diversité suffisant pour une intégration dans des services réels
Réduction et support API
- Jusqu’à fin juin 2025, les utilisateurs de l’interface peuvent utiliser la version alpha de v3 avec une réduction de 80 %
- L’API sera bientôt disponible
Conclusion
- Eleven v3 est le dernier modèle en date dans le domaine du Text to Speech, avec des capacités renforcées en expressivité, prise en charge multilingue et personnalisation vocale
- Il peut répondre efficacement à la demande croissante en technologies de génération de voix naturelles dans de nombreux secteurs
2 commentaires
C’est en alpha, mais c’est plutôt bien..
Merci pour l’info.
Réactions sur Hacker News
Je n’avais rien vu dans la doc ni dans le guide de prompts au sujet du chant, donc je me suis demandé si c’était un modèle capable de chanter à la base
Pour essayer, j’ai mis les paroles du générique de Friends dans la démo, et le résultat est sorti avec une voix chantée accompagnée d’un son de guitare
Dans un autre test, en ajoutant les labels [verse] et [chorus], il s’est mis à chanter une version a cappella
Pour [1] et [2], je n’ai saisi que les paroles, et pour [3], j’ai ajouté les tags verse/chorus
J’ai aussi essayé avec d’autres chansons connues, mais pour une raison quelconque, je n’ai pas obtenu un mode chant aussi propre
Le fait que le résultat chante est étonnant, mais ce qui est encore plus intéressant, c’est qu’il chante vraiment très mal
On dirait quelqu’un qui est totalement incapable de chanter
Comme le rendu est assez différent du véritable générique de Friends, j’imagine que ce n’est probablement pas un cas de surapprentissage sur des motifs familiers souvent présents dans les données d’entraînement
Chez Mirage AI, ils arrivent à produire une qualité de chant assez correcte
Il me semble me souvenir que le chant était aussi présent dans la démo du modèle
J’en déduis donc que cette capacité est probablement intégrée nativement
Fait intéressant, en essayant avec le prompt suivant, le modèle semble avoir un peu de mal sur la dernière partie avec « purr »
J’utilise beaucoup en pratique le nouveau modèle d’OpenAI ces derniers temps (openai.fm)
Leur manière de séparer les instructions du texte prononcé est originale, et j’ai l’impression qu’OpenAI est probablement plus habitué à cette approche parce qu’ils utilisent énormément la notion d’« instructions » dans l’ensemble de leurs produits, donc aussi dans l’entraînement et la génération de données
Cette séparation peut paraître un peu maladroite, mais elle a l’avantage de permettre de mélanger facilement des consignes générales et des indications propres à une situation précise
Par exemple, on peut demander qu’après les mots « but actually », la voix baisse jusqu’au chuchotement avec une légère touche d’horreur, tout en ajoutant une instruction générale comme « voix grave avec accent britannique »
Les résultats d’OpenAI donnent l’impression d’être plus imprévisibles que ceux d’Eleven Labs et un peu moins aboutis en qualité de production
En revanche, leur prosodie a une plage d’expression beaucoup plus large, parfois même au point d’en faire un peu trop
J’ai aussi l’impression qu’il y a moins de variétés de voix que chez Eleven Labs, et même quand on demande plusieurs styles, cela sonne un peu comme « la même personne qui imite différentes voix »
Mais l’énorme avantage d’OpenAI, c’est que c’est environ 10 fois moins cher et entièrement facturé à l’usage
(Le fait que les services TTS imposent un abonnement mensuel ou des crédits payants en plus est vraiment inefficace)
Si je n’utilise pas ElevenLabs et que je choisis d’autres solutions malgré une qualité plus faible, c’est parce que je veux seulement payer pour ce dont j’ai besoin, alors que leur modèle d’abonnement m’oblige à acheter des blocs mensuels, puis des blocs encore plus gros si je dépasse
À mes yeux, cette politique tarifaire est vraiment mauvaise
Je me sentirais presque insulté par une réponse mécanique du type « Oh no, I'm really sorry to hear you're having trouble with your new device. That sounds frustrating. »
Si je veux juste de l’aide, me faire manipuler émotionnellement par une machine me paraît être un futur affreux
Ce genre de réponse est déjà agaçant entre humains, alors je n’ai certainement pas envie de l’entendre d’une IA
Je n’éprouve aucun plaisir particulier à parler à un ordinateur, donc je n’utilise pas du tout les interfaces vocales type Siri
Je ne veux pas non plus de machines qui parlent comme des humains
Un ordinateur à la Star Trek qui répond juste « en cours... » me suffirait largement
Pas de bavardage, juste l’essentiel tout de suite
Même si je mets dans mon profil ChatGPT cinq phrases interdisant toute validation émotionnelle, toute empathie ou tout commentaire inutile, je retombe malgré tout à chaque fois sur des réponses du genre « votre inquiétude est légitime », et rien ne change
J’aimerais presque voir si les petites formules envahissantes à l’américaine (« champ », « bud ») passeraient aussi en Europe ou en Australie
Ça ressemble beaucoup à des répliques du film Her, avec une voix extrêmement proche de celle de Scarlett Johansson, au point que j’ai eu l’impression que ce son s’en inspirait
Blague sur les cas d’hallucination où le système dit des choses du type « je peux généralement vous aider », « je vais retrouver votre numéro de commande », puis donne un lien qui n’existe pas en réalité
Ce n’est peut-être pas un vrai problème, mais j’ai remarqué quelque chose d’amusant
En mettant la langue sur le japonais, puis en entrant
Plus sérieusement, quand on teste plusieurs langues en même temps, on a l’impression que la langue d’entrée est « normalisée » très tôt dans le traitement du modèle
Autrement dit, le résultat ne change pas énormément selon qu’on écrive le prompt en anglais ou en japonais
Je me demande si le prompt système fonctionne différemment ici
Pour ceux que ça intéresse, je laisse l’info
Ce modèle est basé sur tortoise-tts-fast
Le développeur de ce projet a ensuite été recruté chez Eleven Labs
Pas exactement « recruté » : il avait en réalité déjà quitté l’entreprise six mois avant la sortie de v3
L’affirmation précédente, selon laquelle la base du projet impliquerait un recrutement chez Eleven Labs, n’établit pas de lien de causalité
Les voix en anglais américain sont vraiment impressionnantes, mais pour les balises de rire, on a l’impression que le système insère une section indépendante du type « rire ici », plutôt qu’un rire bref et naturel intégré au moment voulu
Par exemple, lorsqu’un mot devrait être prononcé en riant, cela reste encore maladroit
Si on réécrit le texte pour que le rire tombe à un endroit naturellement cohérent dans le contexte, le rendu devient beaucoup plus naturel ; je recommande donc de regarder cet exemple
Le service est encore cher, donc il y a beaucoup d’espace pour la concurrence
ElevenLabs reste le leader sur la qualité, mais les concurrents reviennent vite
En particulier, des laboratoires et entreprises d’IA chinois publient eux aussi des modèles TTS totalement open source, ce qui accélère les changements dans l’écosystème, y compris du point de vue des entreprises américaines
Au final, c’est bénéfique pour les utilisateurs
PlayHT, soutenu par Y Combinator, a lui aussi sorti beaucoup de bonnes fonctionnalités
Le résultat est vraiment remarquable, au point que dans 99 % des cas, on ne le distinguerait pas d’un comédien voix professionnel
Je n’ai pas trouvé les tarifs ; si quelqu’un les connaît, je suis preneur
J’ai vu l’annonce disant que l’API publique pour Eleven v3 (alpha) devrait sortir bientôt
Pour un accès anticipé ou des discussions sur les tarifs, il est indiqué de contacter l’équipe sales
J’ai l’impression que même l’entreprise n’a pas encore arrêté précisément sa grille tarifaire et cherche d’abord à mesurer la demande
Oh... je suis comédien voix professionnel
Mais malgré tout, ce n’est qu’une « IA », pas une vraie personne
Il faut continuer à entendre de vraies voix humaines dans la musique, les livres audio, la poésie, les romans, le théâtre et le reste
C’est là que se trouve pour moi le plaisir essentiel
C’est un peu hors sujet, même si ça reste lié au TTS, mais quand j’entends le mot « eleven », je pense tout de suite à cette vidéo humoristique écossaise sur la reconnaissance vocale d’un ascenseur
Vidéo comique Elevator Voice Recognition
J’ai l’impression de ne pas avoir vu d’exemple avec un accent britannique
Globalement, les systèmes TTS semblent surtout gérer l’accent américain, et le britannique sonne souvent comme du « britannique imité par un Américain », façon Frasier
Notre bibliothèque vocale contient beaucoup de voix britanniques variées
Sinon, on peut ajouter « [British accent] » au début du prompt, et cela génère justement quelque chose qui ressemble à un Américain imitant un accent britannique
Le cas de l’accent de Frasier Crane fait débat, parce qu’il s’agit d’un acteur américain jouant un personnage américain avec, selon les situations, un accent américain teinté de transatlantique ou de Boston Brahmin, voire un mélange des deux
Ces deux accents partagent effectivement certains traits avec l’anglais britannique
Pour précision, l’accent à la Frasier n’est pas une « imitation du britannique », mais relève plutôt du Boston Brahmin / transatlantique
Les voix à accent d’ElevenLabs v2 restent encore très supérieures à celles de la concurrence
Je les ai utilisées directement dans plusieurs langues, notamment l’arabe, le français, l’hindi et l’anglais
L’anglais sonne vraiment fantastique, félicitations
En revanche, dans les autres langues que j’ai essayées, on entend encore un fort accent anglais
En italien, ça commence avec un accent américain complètement caricatural, puis au bout de 10 à 20 mots, cela bascule soudain vers une véritable prononciation italienne
J’ai utilisé la voix Alice, et j’ai eu l’impression qu’en interne cela démarrait sur une base en-us avant de s’ajuster brutalement à la langue configurée
Je me demande ce qu’il se passe en coulisses
En français, l’accent m’a semblé être celui de quelqu’un originaire d’Alabama qui aurait fait un peu de français à l’université
Mais en anglais, c’était vraiment très bon
Pour le portugais, la voix Liam a, de manière intéressante, un accent espagnol
L’icône de langue est le portugais, mais l’expression est clairement en portugais brésilien
En suédois, c’est juste totalement américain
Je recommande d’essayer avec une voix entraînée sur la langue en question
Cet aperçu de recherche n’est pas homogène, et la qualité varie beaucoup selon la voix