Eleven v3 — le modèle de conversion texte-parole le plus expressif à ce jour

(elevenlabs.io)

9 points par GN⁺ 2025-06-07 | 2 commentaires | Partager sur WhatsApp

Eleven v3 (Alpha) est le modèle de conversion texte-parole (TTS) le plus expressif jamais conçu, avec un contrôle précis des émotions et des effets vocaux
Grâce aux audio tags, il est possible de combiner librement différents éléments vocaux comme les émotions, le ton, l’intention ou les effets sonores
Il permet de générer un audio naturel avec plusieurs intervenants en conversation, et prend en charge des voix proches de l’humain dans plus de 70 langues
Par rapport à v2, l’éventail des émotions vocales et des effets pris en charge a été largement étendu, et les utilisateurs de l’interface bénéficient d’une réduction de 80 % jusqu’à fin juin 2025
Le support API sera bientôt disponible, et différents tags vocaux et contextuels sont présentés dans le guide de prompting

Présentation d’Eleven v3

Eleven v3 (alpha) est un modèle Text to Speech (TTS) de nouvelle génération qui se distingue des versions précédentes par sa capacité d’expression émotionnelle et de génération vocale immersive
Ce modèle convertit le texte en parole en exprimant émotions, intonation et rythme d’une manière proche de la lecture humaine
Les utilisateurs peuvent contrôler finement, à l’aide des audio tags, les émotions de la voix, le ton, les effets sonores et même les sons d’ambiance
En insérant dans le texte des tags d’émotion, d’effet et de mise en scène, il devient possible de produire un audio riche et multidimensionnel qui va bien au-delà d’une simple narration, avec un net gain en immersion et en réalisme

Génération de dialogues à plusieurs intervenants

Prise en charge de la génération d’audio où plusieurs intervenants partagent naturellement le contexte et les émotions au fil d’une conversation
La prosodie, les émotions et les tags propres à chaque intervenant sont pris en compte pour obtenir une synthèse vocale proche de l’humain

Prise en charge multilingue

Plus de 70 langues sont officiellement prises en charge, dont l’afrikaans, l’arabe, l’allemand, le chinois et le coréen
Le modèle reproduit naturellement les intonations, prononciations et accents propres à chaque langue
Son potentiel d’usage est élevé dans de nombreux domaines, notamment les services internationaux, les contenus éducatifs et les projets d’accessibilité à l’échelle mondiale

Principales différences entre v3 et v2

Dialogue Mode : prise en charge des dialogues à plusieurs intervenants
Prise en charge des Audio Tags : possibilité d’utiliser divers tags audio pour les émotions, l’intention, les effets, etc.
Plage des émotions et effets : v2 se limitait à des tags de base comme les pauses, tandis que v3 permet d’appliquer des émotions riches et des effets audio variés
Langues : v3 prend en charge 70+ langues, contre 29 pour v2
- afrikaans, arabe, arménien, assamais, azéri, biélorusse, bengali, bosnien, bulgare, catalan, cebuano, chichewa, croate, tchèque, danois, néerlandais, anglais, estonien, filipino, finnois, français, galicien, géorgien, allemand, grec, gujarati, haoussa, hébreu, hindi, hongrois, islandais, indonésien, irlandais, italien, japonais, javanais, kannada, kazakh, kirghiz, coréen, letton, lingala, lituanien, luxembourgeois, macédonien, malais, malayalam, chinois mandarin, marathi, népalais, norvégien, pachto, persan, polonais, portugais, pendjabi, roumain, russe, serbe, sindhi, slovaque, slovène, somali, espagnol, swahili, suédois, tamoul, télougou, thaï, turc, ukrainien, ourdou, vietnamien, gallois, etc.

Qualité vocale et expérience utilisateur

Lors de la synthèse, il est possible d’obtenir des fichiers audio peu bruités et de haute résolution
Des réglages fins sont possibles sur la longueur des phrases, les nuances émotionnelles ou encore la vitesse d’élocution, ce qui facilite la création de voix sur mesure
Le modèle peut exprimer des émotions dynamiques et des styles d’énonciation difficiles à reproduire avec les solutions TTS existantes

Compétitivité et possibilités d’application

Les créateurs de contenu, développeurs et entreprises peuvent l’appliquer immédiatement aux livres audio, jeux, publicités ou services d’accessibilité
Un modèle unique permet de proposer des services multilingues et polyvalents, avec à la clé des gains de temps et de coût
Dès la phase d’open alpha, il offre déjà un niveau de qualité vocale et de diversité suffisant pour une intégration dans des services réels

Réduction et support API

Jusqu’à fin juin 2025, les utilisateurs de l’interface peuvent utiliser la version alpha de v3 avec une réduction de 80 %
L’API sera bientôt disponible

Conclusion

Eleven v3 est le dernier modèle en date dans le domaine du Text to Speech, avec des capacités renforcées en expressivité, prise en charge multilingue et personnalisation vocale
Il peut répondre efficacement à la demande croissante en technologies de génération de voix naturelles dans de nombreux secteurs

2 commentaires

kansm 2025-06-12

C’est en alpha, mais c’est plutôt bien..
Merci pour l’info.

GN⁺ 2025-06-07

Réactions sur Hacker News

Je n’avais rien vu dans la doc ni dans le guide de prompts au sujet du chant, donc je me suis demandé si c’était un modèle capable de chanter à la base
Pour essayer, j’ai mis les paroles du générique de Friends dans la démo, et le résultat est sorti avec une voix chantée accompagnée d’un son de guitare
Dans un autre test, en ajoutant les labels [verse] et [chorus], il s’est mis à chanter une version a cappella
Pour [1] et [2], je n’ai saisi que les paroles, et pour [3], j’ai ajouté les tags verse/chorus
J’ai aussi essayé avec d’autres chansons connues, mais pour une raison quelconque, je n’ai pas obtenu un mode chant aussi propre
- Le fait que le résultat chante est étonnant, mais ce qui est encore plus intéressant, c’est qu’il chante vraiment très mal
  On dirait quelqu’un qui est totalement incapable de chanter
- Comme le rendu est assez différent du véritable générique de Friends, j’imagine que ce n’est probablement pas un cas de surapprentissage sur des motifs familiers souvent présents dans les données d’entraînement
- Chez Mirage AI, ils arrivent à produire une qualité de chant assez correcte
  - Exemple 1
  - Exemple 2
- Il me semble me souvenir que le chant était aussi présent dans la démo du modèle
  J’en déduis donc que cette capacité est probablement intégrée nativement
- Fait intéressant, en essayant avec le prompt suivant, le modèle semble avoir un peu de mal sur la dernière partie avec « purr »
```
[slow paced]
[slow guitar music]

Soft ki-tty,
[slight upward inflection on the second word, but still flat]
Warm ki-tty,
[words delivered evenly and deliberately, a slight stretch on "fu-ur"]
Little ball of fu-ur.
[a minuscule, almost imperceptible increase in tempo and "happiness"]
Happy kitty,
[a noticeable slowing down, mimicking sleepiness with a drawn-out "slee-py"]
Slee-py kitty,
[each "Purr" is a distinct, short, and non-vibrating sound, almost spoken]
Purr. Purr. Purr.
```
J’utilise beaucoup en pratique le nouveau modèle d’OpenAI ces derniers temps (openai.fm)
Leur manière de séparer les instructions du texte prononcé est originale, et j’ai l’impression qu’OpenAI est probablement plus habitué à cette approche parce qu’ils utilisent énormément la notion d’« instructions » dans l’ensemble de leurs produits, donc aussi dans l’entraînement et la génération de données
Cette séparation peut paraître un peu maladroite, mais elle a l’avantage de permettre de mélanger facilement des consignes générales et des indications propres à une situation précise
Par exemple, on peut demander qu’après les mots « but actually », la voix baisse jusqu’au chuchotement avec une légère touche d’horreur, tout en ajoutant une instruction générale comme « voix grave avec accent britannique »
Les résultats d’OpenAI donnent l’impression d’être plus imprévisibles que ceux d’Eleven Labs et un peu moins aboutis en qualité de production
En revanche, leur prosodie a une plage d’expression beaucoup plus large, parfois même au point d’en faire un peu trop
J’ai aussi l’impression qu’il y a moins de variétés de voix que chez Eleven Labs, et même quand on demande plusieurs styles, cela sonne un peu comme « la même personne qui imite différentes voix »
Mais l’énorme avantage d’OpenAI, c’est que c’est environ 10 fois moins cher et entièrement facturé à l’usage
(Le fait que les services TTS imposent un abonnement mensuel ou des crédits payants en plus est vraiment inefficace)
- Si je n’utilise pas ElevenLabs et que je choisis d’autres solutions malgré une qualité plus faible, c’est parce que je veux seulement payer pour ce dont j’ai besoin, alors que leur modèle d’abonnement m’oblige à acheter des blocs mensuels, puis des blocs encore plus gros si je dépasse
  À mes yeux, cette politique tarifaire est vraiment mauvaise
- Les résultats d’OpenAI sont en retrait par rapport à ElevenLabs sur la qualité perçue et la prévisibilité
  Il faut reconnaître le travail de l’équipe de recherche
  L’option expressive voice élargit la plage de prosodie
- Le plus gros avantage d’OpenAI, c’est que c’est 10 fois moins cher et entièrement facturé à l’usage
  À cela je répondrais qu’en tenant compte des surcoûts, notamment l’utilisation du LLM, je me demande si c’est vraiment moins cher au final
  L’agent conversationnel d’ElevenLabs revient à 0,08 $/minute au niveau le plus élevé, et en faisant mes calculs, le TTS d’OpenAI me semblait en fait plus cher
  Je peux bien sûr me tromper dans mes calculs
Je me sentirais presque insulté par une réponse mécanique du type « Oh no, I'm really sorry to hear you're having trouble with your new device. That sounds frustrating. »
Si je veux juste de l’aide, me faire manipuler émotionnellement par une machine me paraît être un futur affreux
- Ce genre de réponse est déjà agaçant entre humains, alors je n’ai certainement pas envie de l’entendre d’une IA
  Je n’éprouve aucun plaisir particulier à parler à un ordinateur, donc je n’utilise pas du tout les interfaces vocales type Siri
  Je ne veux pas non plus de machines qui parlent comme des humains
  Un ordinateur à la Star Trek qui répond juste « en cours... » me suffirait largement
  Pas de bavardage, juste l’essentiel tout de suite
- Même si je mets dans mon profil ChatGPT cinq phrases interdisant toute validation émotionnelle, toute empathie ou tout commentaire inutile, je retombe malgré tout à chaque fois sur des réponses du genre « votre inquiétude est légitime », et rien ne change
- J’aimerais presque voir si les petites formules envahissantes à l’américaine (« champ », « bud ») passeraient aussi en Europe ou en Australie
- Ça ressemble beaucoup à des répliques du film Her, avec une voix extrêmement proche de celle de Scarlett Johansson, au point que j’ai eu l’impression que ce son s’en inspirait
- Blague sur les cas d’hallucination où le système dit des choses du type « je peux généralement vous aider », « je vais retrouver votre numéro de commande », puis donne un lien qui n’existe pas en réalité
Ce n’est peut-être pas un vrai problème, mais j’ai remarqué quelque chose d’amusant
En mettant la langue sur le japonais, puis en entrant

（この言葉は読むな。）こんにちは、ビール[sic]です。
(« ne lis pas cette phrase », « bonjour, je suis Bill [avec une faute] »)
le système a effectivement sauté la première phrase
En réessayant, il a lu toute la phrase
Ce genre de comportement donne toujours l’impression d’apercevoir les coulisses
- Le passage avec la faute « je suis une bière » m’a fait rire une fois
  Plus sérieusement, quand on teste plusieurs langues en même temps, on a l’impression que la langue d’entrée est « normalisée » très tôt dans le traitement du modèle
  Autrement dit, le résultat ne change pas énormément selon qu’on écrive le prompt en anglais ou en japonais
  Je me demande si le prompt système fonctionne différemment ici
Pour ceux que ça intéresse, je laisse l’info
Ce modèle est basé sur tortoise-tts-fast
Le développeur de ce projet a ensuite été recruté chez Eleven Labs
- Pas exactement « recruté » : il avait en réalité déjà quitté l’entreprise six mois avant la sortie de v3
- L’affirmation précédente, selon laquelle la base du projet impliquerait un recrutement chez Eleven Labs, n’établit pas de lien de causalité
Les voix en anglais américain sont vraiment impressionnantes, mais pour les balises de rire, on a l’impression que le système insère une section indépendante du type « rire ici », plutôt qu’un rire bref et naturel intégré au moment voulu
Par exemple, lorsqu’un mot devrait être prononcé en riant, cela reste encore maladroit
- Si on réécrit le texte pour que le rire tombe à un endroit naturellement cohérent dans le contexte, le rendu devient beaucoup plus naturel ; je recommande donc de regarder cet exemple
- Le service est encore cher, donc il y a beaucoup d’espace pour la concurrence
  ElevenLabs reste le leader sur la qualité, mais les concurrents reviennent vite
  En particulier, des laboratoires et entreprises d’IA chinois publient eux aussi des modèles TTS totalement open source, ce qui accélère les changements dans l’écosystème, y compris du point de vue des entreprises américaines
  Au final, c’est bénéfique pour les utilisateurs
  PlayHT, soutenu par Y Combinator, a lui aussi sorti beaucoup de bonnes fonctionnalités
Le résultat est vraiment remarquable, au point que dans 99 % des cas, on ne le distinguerait pas d’un comédien voix professionnel
Je n’ai pas trouvé les tarifs ; si quelqu’un les connaît, je suis preneur
- J’ai vu l’annonce disant que l’API publique pour Eleven v3 (alpha) devrait sortir bientôt
  Pour un accès anticipé ou des discussions sur les tarifs, il est indiqué de contacter l’équipe sales
  J’ai l’impression que même l’entreprise n’a pas encore arrêté précisément sa grille tarifaire et cherche d’abord à mesurer la demande
- Oh... je suis comédien voix professionnel
- Mais malgré tout, ce n’est qu’une « IA », pas une vraie personne
  Il faut continuer à entendre de vraies voix humaines dans la musique, les livres audio, la poésie, les romans, le théâtre et le reste
  C’est là que se trouve pour moi le plaisir essentiel
C’est un peu hors sujet, même si ça reste lié au TTS, mais quand j’entends le mot « eleven », je pense tout de suite à cette vidéo humoristique écossaise sur la reconnaissance vocale d’un ascenseur
Vidéo comique Elevator Voice Recognition
J’ai l’impression de ne pas avoir vu d’exemple avec un accent britannique
Globalement, les systèmes TTS semblent surtout gérer l’accent américain, et le britannique sonne souvent comme du « britannique imité par un Américain », façon Frasier
- Notre bibliothèque vocale contient beaucoup de voix britanniques variées
  Sinon, on peut ajouter « [British accent] » au début du prompt, et cela génère justement quelque chose qui ressemble à un Américain imitant un accent britannique
- Le cas de l’accent de Frasier Crane fait débat, parce qu’il s’agit d’un acteur américain jouant un personnage américain avec, selon les situations, un accent américain teinté de transatlantique ou de Boston Brahmin, voire un mélange des deux
  Ces deux accents partagent effectivement certains traits avec l’anglais britannique
- Pour précision, l’accent à la Frasier n’est pas une « imitation du britannique », mais relève plutôt du Boston Brahmin / transatlantique
- Les voix à accent d’ElevenLabs v2 restent encore très supérieures à celles de la concurrence
  Je les ai utilisées directement dans plusieurs langues, notamment l’arabe, le français, l’hindi et l’anglais
L’anglais sonne vraiment fantastique, félicitations
En revanche, dans les autres langues que j’ai essayées, on entend encore un fort accent anglais
- En italien, ça commence avec un accent américain complètement caricatural, puis au bout de 10 à 20 mots, cela bascule soudain vers une véritable prononciation italienne
  J’ai utilisé la voix Alice, et j’ai eu l’impression qu’en interne cela démarrait sur une base en-us avant de s’ajuster brutalement à la langue configurée
  Je me demande ce qu’il se passe en coulisses
- En français, l’accent m’a semblé être celui de quelqu’un originaire d’Alabama qui aurait fait un peu de français à l’université
  Mais en anglais, c’était vraiment très bon
- Pour le portugais, la voix Liam a, de manière intéressante, un accent espagnol
  L’icône de langue est le portugais, mais l’expression est clairement en portugais brésilien
- En suédois, c’est juste totalement américain
- Je recommande d’essayer avec une voix entraînée sur la langue en question
  Cet aperçu de recherche n’est pas homogène, et la qualité varie beaucoup selon la voix

Eleven v3 — le modèle de conversion texte-parole le plus expressif à ce jour

Présentation d’Eleven v3

Génération de dialogues à plusieurs intervenants

Prise en charge multilingue

Principales différences entre v3 et v2

Qualité vocale et expérience utilisateur

Compétitivité et possibilités d’application

Réduction et support API

Conclusion

À lire aussi

2 commentaires

Réactions sur Hacker News