9 points par GN⁺ 2025-06-07 | 2 commentaires | Partager sur WhatsApp
  • Eleven v3 (Alpha) est le modèle de conversion texte-parole (TTS) le plus expressif jamais conçu, avec un contrôle précis des émotions et des effets vocaux
  • Grâce aux audio tags, il est possible de combiner librement différents éléments vocaux comme les émotions, le ton, l’intention ou les effets sonores
  • Il permet de générer un audio naturel avec plusieurs intervenants en conversation, et prend en charge des voix proches de l’humain dans plus de 70 langues
  • Par rapport à v2, l’éventail des émotions vocales et des effets pris en charge a été largement étendu, et les utilisateurs de l’interface bénéficient d’une réduction de 80 % jusqu’à fin juin 2025
  • Le support API sera bientôt disponible, et différents tags vocaux et contextuels sont présentés dans le guide de prompting

Présentation d’Eleven v3

  • Eleven v3 (alpha) est un modèle Text to Speech (TTS) de nouvelle génération qui se distingue des versions précédentes par sa capacité d’expression émotionnelle et de génération vocale immersive
  • Ce modèle convertit le texte en parole en exprimant émotions, intonation et rythme d’une manière proche de la lecture humaine
  • Les utilisateurs peuvent contrôler finement, à l’aide des audio tags, les émotions de la voix, le ton, les effets sonores et même les sons d’ambiance
  • En insérant dans le texte des tags d’émotion, d’effet et de mise en scène, il devient possible de produire un audio riche et multidimensionnel qui va bien au-delà d’une simple narration, avec un net gain en immersion et en réalisme

Génération de dialogues à plusieurs intervenants

  • Prise en charge de la génération d’audio où plusieurs intervenants partagent naturellement le contexte et les émotions au fil d’une conversation
  • La prosodie, les émotions et les tags propres à chaque intervenant sont pris en compte pour obtenir une synthèse vocale proche de l’humain

Prise en charge multilingue

  • Plus de 70 langues sont officiellement prises en charge, dont l’afrikaans, l’arabe, l’allemand, le chinois et le coréen
  • Le modèle reproduit naturellement les intonations, prononciations et accents propres à chaque langue
  • Son potentiel d’usage est élevé dans de nombreux domaines, notamment les services internationaux, les contenus éducatifs et les projets d’accessibilité à l’échelle mondiale

Principales différences entre v3 et v2

  • Dialogue Mode : prise en charge des dialogues à plusieurs intervenants
  • Prise en charge des Audio Tags : possibilité d’utiliser divers tags audio pour les émotions, l’intention, les effets, etc.
  • Plage des émotions et effets : v2 se limitait à des tags de base comme les pauses, tandis que v3 permet d’appliquer des émotions riches et des effets audio variés
  • Langues : v3 prend en charge 70+ langues, contre 29 pour v2
    • afrikaans, arabe, arménien, assamais, azéri, biélorusse, bengali, bosnien, bulgare, catalan, cebuano, chichewa, croate, tchèque, danois, néerlandais, anglais, estonien, filipino, finnois, français, galicien, géorgien, allemand, grec, gujarati, haoussa, hébreu, hindi, hongrois, islandais, indonésien, irlandais, italien, japonais, javanais, kannada, kazakh, kirghiz, coréen, letton, lingala, lituanien, luxembourgeois, macédonien, malais, malayalam, chinois mandarin, marathi, népalais, norvégien, pachto, persan, polonais, portugais, pendjabi, roumain, russe, serbe, sindhi, slovaque, slovène, somali, espagnol, swahili, suédois, tamoul, télougou, thaï, turc, ukrainien, ourdou, vietnamien, gallois, etc.

Qualité vocale et expérience utilisateur

  • Lors de la synthèse, il est possible d’obtenir des fichiers audio peu bruités et de haute résolution
  • Des réglages fins sont possibles sur la longueur des phrases, les nuances émotionnelles ou encore la vitesse d’élocution, ce qui facilite la création de voix sur mesure
  • Le modèle peut exprimer des émotions dynamiques et des styles d’énonciation difficiles à reproduire avec les solutions TTS existantes

Compétitivité et possibilités d’application

  • Les créateurs de contenu, développeurs et entreprises peuvent l’appliquer immédiatement aux livres audio, jeux, publicités ou services d’accessibilité
  • Un modèle unique permet de proposer des services multilingues et polyvalents, avec à la clé des gains de temps et de coût
  • Dès la phase d’open alpha, il offre déjà un niveau de qualité vocale et de diversité suffisant pour une intégration dans des services réels

Réduction et support API

  • Jusqu’à fin juin 2025, les utilisateurs de l’interface peuvent utiliser la version alpha de v3 avec une réduction de 80 %
  • L’API sera bientôt disponible

Conclusion

  • Eleven v3 est le dernier modèle en date dans le domaine du Text to Speech, avec des capacités renforcées en expressivité, prise en charge multilingue et personnalisation vocale
  • Il peut répondre efficacement à la demande croissante en technologies de génération de voix naturelles dans de nombreux secteurs

2 commentaires

 
kansm 2025-06-12

C’est en alpha, mais c’est plutôt bien..
Merci pour l’info.

 
GN⁺ 2025-06-07
Réactions sur Hacker News
  • Je n’avais rien vu dans la doc ni dans le guide de prompts au sujet du chant, donc je me suis demandé si c’était un modèle capable de chanter à la base
    Pour essayer, j’ai mis les paroles du générique de Friends dans la démo, et le résultat est sorti avec une voix chantée accompagnée d’un son de guitare
    Dans un autre test, en ajoutant les labels [verse] et [chorus], il s’est mis à chanter une version a cappella
    Pour [1] et [2], je n’ai saisi que les paroles, et pour [3], j’ai ajouté les tags verse/chorus
    J’ai aussi essayé avec d’autres chansons connues, mais pour une raison quelconque, je n’ai pas obtenu un mode chant aussi propre

    • Le fait que le résultat chante est étonnant, mais ce qui est encore plus intéressant, c’est qu’il chante vraiment très mal
      On dirait quelqu’un qui est totalement incapable de chanter

    • Comme le rendu est assez différent du véritable générique de Friends, j’imagine que ce n’est probablement pas un cas de surapprentissage sur des motifs familiers souvent présents dans les données d’entraînement

    • Chez Mirage AI, ils arrivent à produire une qualité de chant assez correcte

    • Il me semble me souvenir que le chant était aussi présent dans la démo du modèle
      J’en déduis donc que cette capacité est probablement intégrée nativement

    • Fait intéressant, en essayant avec le prompt suivant, le modèle semble avoir un peu de mal sur la dernière partie avec « purr »

      [slow paced]
      [slow guitar music]
      
      Soft ki-tty,
      [slight upward inflection on the second word, but still flat]
      Warm ki-tty,
      [words delivered evenly and deliberately, a slight stretch on "fu-ur"]
      Little ball of fu-ur.
      [a minuscule, almost imperceptible increase in tempo and "happiness"]
      Happy kitty,
      [a noticeable slowing down, mimicking sleepiness with a drawn-out "slee-py"]
      Slee-py kitty,
      [each "Purr" is a distinct, short, and non-vibrating sound, almost spoken]
      Purr. Purr. Purr.
      
  • J’utilise beaucoup en pratique le nouveau modèle d’OpenAI ces derniers temps (openai.fm)
    Leur manière de séparer les instructions du texte prononcé est originale, et j’ai l’impression qu’OpenAI est probablement plus habitué à cette approche parce qu’ils utilisent énormément la notion d’« instructions » dans l’ensemble de leurs produits, donc aussi dans l’entraînement et la génération de données
    Cette séparation peut paraître un peu maladroite, mais elle a l’avantage de permettre de mélanger facilement des consignes générales et des indications propres à une situation précise
    Par exemple, on peut demander qu’après les mots « but actually », la voix baisse jusqu’au chuchotement avec une légère touche d’horreur, tout en ajoutant une instruction générale comme « voix grave avec accent britannique »
    Les résultats d’OpenAI donnent l’impression d’être plus imprévisibles que ceux d’Eleven Labs et un peu moins aboutis en qualité de production
    En revanche, leur prosodie a une plage d’expression beaucoup plus large, parfois même au point d’en faire un peu trop
    J’ai aussi l’impression qu’il y a moins de variétés de voix que chez Eleven Labs, et même quand on demande plusieurs styles, cela sonne un peu comme « la même personne qui imite différentes voix »
    Mais l’énorme avantage d’OpenAI, c’est que c’est environ 10 fois moins cher et entièrement facturé à l’usage
    (Le fait que les services TTS imposent un abonnement mensuel ou des crédits payants en plus est vraiment inefficace)

    • Si je n’utilise pas ElevenLabs et que je choisis d’autres solutions malgré une qualité plus faible, c’est parce que je veux seulement payer pour ce dont j’ai besoin, alors que leur modèle d’abonnement m’oblige à acheter des blocs mensuels, puis des blocs encore plus gros si je dépasse
      À mes yeux, cette politique tarifaire est vraiment mauvaise

    • Les résultats d’OpenAI sont en retrait par rapport à ElevenLabs sur la qualité perçue et la prévisibilité
      Il faut reconnaître le travail de l’équipe de recherche
      L’option expressive voice élargit la plage de prosodie

    • Le plus gros avantage d’OpenAI, c’est que c’est 10 fois moins cher et entièrement facturé à l’usage
      À cela je répondrais qu’en tenant compte des surcoûts, notamment l’utilisation du LLM, je me demande si c’est vraiment moins cher au final
      L’agent conversationnel d’ElevenLabs revient à 0,08 $/minute au niveau le plus élevé, et en faisant mes calculs, le TTS d’OpenAI me semblait en fait plus cher
      Je peux bien sûr me tromper dans mes calculs

  • Je me sentirais presque insulté par une réponse mécanique du type « Oh no, I'm really sorry to hear you're having trouble with your new device. That sounds frustrating. »
    Si je veux juste de l’aide, me faire manipuler émotionnellement par une machine me paraît être un futur affreux

    • Ce genre de réponse est déjà agaçant entre humains, alors je n’ai certainement pas envie de l’entendre d’une IA
      Je n’éprouve aucun plaisir particulier à parler à un ordinateur, donc je n’utilise pas du tout les interfaces vocales type Siri
      Je ne veux pas non plus de machines qui parlent comme des humains
      Un ordinateur à la Star Trek qui répond juste « en cours... » me suffirait largement
      Pas de bavardage, juste l’essentiel tout de suite

    • Même si je mets dans mon profil ChatGPT cinq phrases interdisant toute validation émotionnelle, toute empathie ou tout commentaire inutile, je retombe malgré tout à chaque fois sur des réponses du genre « votre inquiétude est légitime », et rien ne change

    • J’aimerais presque voir si les petites formules envahissantes à l’américaine (« champ », « bud ») passeraient aussi en Europe ou en Australie

    • Ça ressemble beaucoup à des répliques du film Her, avec une voix extrêmement proche de celle de Scarlett Johansson, au point que j’ai eu l’impression que ce son s’en inspirait

    • Blague sur les cas d’hallucination où le système dit des choses du type « je peux généralement vous aider », « je vais retrouver votre numéro de commande », puis donne un lien qui n’existe pas en réalité

  • Ce n’est peut-être pas un vrai problème, mais j’ai remarqué quelque chose d’amusant
    En mettant la langue sur le japonais, puis en entrant

    (この言葉は読むな。)こんにちは、ビール[sic]です。
    (« ne lis pas cette phrase », « bonjour, je suis Bill [avec une faute] »)
    le système a effectivement sauté la première phrase
    En réessayant, il a lu toute la phrase
    Ce genre de comportement donne toujours l’impression d’apercevoir les coulisses

    • Le passage avec la faute « je suis une bière » m’a fait rire une fois
      Plus sérieusement, quand on teste plusieurs langues en même temps, on a l’impression que la langue d’entrée est « normalisée » très tôt dans le traitement du modèle
      Autrement dit, le résultat ne change pas énormément selon qu’on écrive le prompt en anglais ou en japonais
      Je me demande si le prompt système fonctionne différemment ici
  • Pour ceux que ça intéresse, je laisse l’info
    Ce modèle est basé sur tortoise-tts-fast
    Le développeur de ce projet a ensuite été recruté chez Eleven Labs

    • Pas exactement « recruté » : il avait en réalité déjà quitté l’entreprise six mois avant la sortie de v3

    • L’affirmation précédente, selon laquelle la base du projet impliquerait un recrutement chez Eleven Labs, n’établit pas de lien de causalité

  • Les voix en anglais américain sont vraiment impressionnantes, mais pour les balises de rire, on a l’impression que le système insère une section indépendante du type « rire ici », plutôt qu’un rire bref et naturel intégré au moment voulu
    Par exemple, lorsqu’un mot devrait être prononcé en riant, cela reste encore maladroit

    • Si on réécrit le texte pour que le rire tombe à un endroit naturellement cohérent dans le contexte, le rendu devient beaucoup plus naturel ; je recommande donc de regarder cet exemple

    • Le service est encore cher, donc il y a beaucoup d’espace pour la concurrence
      ElevenLabs reste le leader sur la qualité, mais les concurrents reviennent vite
      En particulier, des laboratoires et entreprises d’IA chinois publient eux aussi des modèles TTS totalement open source, ce qui accélère les changements dans l’écosystème, y compris du point de vue des entreprises américaines
      Au final, c’est bénéfique pour les utilisateurs
      PlayHT, soutenu par Y Combinator, a lui aussi sorti beaucoup de bonnes fonctionnalités

  • Le résultat est vraiment remarquable, au point que dans 99 % des cas, on ne le distinguerait pas d’un comédien voix professionnel
    Je n’ai pas trouvé les tarifs ; si quelqu’un les connaît, je suis preneur

    • J’ai vu l’annonce disant que l’API publique pour Eleven v3 (alpha) devrait sortir bientôt
      Pour un accès anticipé ou des discussions sur les tarifs, il est indiqué de contacter l’équipe sales
      J’ai l’impression que même l’entreprise n’a pas encore arrêté précisément sa grille tarifaire et cherche d’abord à mesurer la demande

    • Oh... je suis comédien voix professionnel

    • Mais malgré tout, ce n’est qu’une « IA », pas une vraie personne
      Il faut continuer à entendre de vraies voix humaines dans la musique, les livres audio, la poésie, les romans, le théâtre et le reste
      C’est là que se trouve pour moi le plaisir essentiel

  • C’est un peu hors sujet, même si ça reste lié au TTS, mais quand j’entends le mot « eleven », je pense tout de suite à cette vidéo humoristique écossaise sur la reconnaissance vocale d’un ascenseur
    Vidéo comique Elevator Voice Recognition

  • J’ai l’impression de ne pas avoir vu d’exemple avec un accent britannique
    Globalement, les systèmes TTS semblent surtout gérer l’accent américain, et le britannique sonne souvent comme du « britannique imité par un Américain », façon Frasier

    • Notre bibliothèque vocale contient beaucoup de voix britanniques variées
      Sinon, on peut ajouter « [British accent] » au début du prompt, et cela génère justement quelque chose qui ressemble à un Américain imitant un accent britannique

    • Le cas de l’accent de Frasier Crane fait débat, parce qu’il s’agit d’un acteur américain jouant un personnage américain avec, selon les situations, un accent américain teinté de transatlantique ou de Boston Brahmin, voire un mélange des deux
      Ces deux accents partagent effectivement certains traits avec l’anglais britannique

    • Pour précision, l’accent à la Frasier n’est pas une « imitation du britannique », mais relève plutôt du Boston Brahmin / transatlantique

    • Les voix à accent d’ElevenLabs v2 restent encore très supérieures à celles de la concurrence
      Je les ai utilisées directement dans plusieurs langues, notamment l’arabe, le français, l’hindi et l’anglais

  • L’anglais sonne vraiment fantastique, félicitations
    En revanche, dans les autres langues que j’ai essayées, on entend encore un fort accent anglais

    • En italien, ça commence avec un accent américain complètement caricatural, puis au bout de 10 à 20 mots, cela bascule soudain vers une véritable prononciation italienne
      J’ai utilisé la voix Alice, et j’ai eu l’impression qu’en interne cela démarrait sur une base en-us avant de s’ajuster brutalement à la langue configurée
      Je me demande ce qu’il se passe en coulisses

    • En français, l’accent m’a semblé être celui de quelqu’un originaire d’Alabama qui aurait fait un peu de français à l’université
      Mais en anglais, c’était vraiment très bon

    • Pour le portugais, la voix Liam a, de manière intéressante, un accent espagnol
      L’icône de langue est le portugais, mais l’expression est clairement en portugais brésilien

    • En suédois, c’est juste totalement américain

    • Je recommande d’essayer avec une voix entraînée sur la langue en question
      Cet aperçu de recherche n’est pas homogène, et la qualité varie beaucoup selon la voix