Dépasser l’étrange vallée de la voix conversationnelle

(sesame.com)

5 points par GN⁺ 2025-03-03 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Pour des assistants vocaux numériques conçus pour être utilisés sur la durée, une présence vocale (voice presence) capable de refléter l’émotion, le rythme et le contexte est plus importante qu’une voix de synthèse simplement propre ; c’est dans ce but que Sesame propose le Conversational Speech Model
CSM est un transformer multimodal end-to-end qui traite conjointement le texte et la voix, conçu pour générer des énoncés plus naturels et plus cohérents en exploitant l’historique de la conversation
Le modèle manipule directement des tokens RVQ, mais se divise entre un backbone chargé du codebook 0 et un petit décodeur audio qui reconstruit les autres codebooks, afin d’équilibrer latence et expressivité
Trois tailles de modèle, Tiny, Small et Medium, ont été entraînées sur environ 1 million d’heures de données audio publiques majoritairement en anglais, avec en plus du WER et de la similarité du locuteur des évaluations sur la prononciation des homographes et la cohérence de prononciation
Sans contexte, la différence de préférence entre CSM-Medium et une vraie voix n’était pas marquée, mais lorsqu’un contexte conversationnel est fourni, les enregistrements réels sont préférés comme continuation plus appropriée, ce qui montre qu’un écart subsiste dans la prosodie conversationnelle

Présence vocale et objectif

L’objectif de Sesame est de concrétiser une présence vocale qui donne l’impression que la parole est réellement comprise et qu’elle a de la valeur
Les assistants vocaux numériques actuels restent souvent bloqués dans un ton neutre, ce qui les rend difficiles à utiliser au quotidien une fois l’effet de nouveauté dissipé
Quatre composantes nécessaires sont mises en avant
- Intelligence émotionnelle : lire le contexte émotionnel et y répondre
- Dynamique conversationnelle : gérer le timing naturel, les pauses, les interruptions et l’emphase
- Conscience du contexte : ajuster le ton et le style selon la situation
- Personnalité cohérente : maintenir une présence fiable et appropriée
Le compagnon de la démo actuelle est optimisé pour mettre en avant la convivialité et l’expressivité, tandis que la personnalité, la mémoire, l’expressivité et la pertinence sont encore en cours d’amélioration

Formulation du problème du Conversational Speech Model

Les TTS traditionnels génèrent directement la voix à partir du texte, mais manquent de conscience du contexte nécessaire à une conversation naturelle
Même si les modèles récents peuvent produire une voix proche de l’humain, il existe plusieurs façons de prononcer une phrase, et seule une partie d’entre elles convient à une situation donnée
Sans contexte supplémentaire comme le ton, le rythme ou l’historique du dialogue, il est difficile pour le modèle de choisir la manière la plus appropriée de parler
CSM aborde ce problème par un apprentissage multimodal end-to-end, afin que le transformer utilise l’historique de conversation pour produire une voix plus naturelle et plus cohérente
Deux caractéristiques clés sont mises en avant
- un modèle en une seule étape pour améliorer l’efficacité et l’expressivité
- un ensemble d’évaluations distinct pour mesurer les progrès en capacité contextuelle, alors que les évaluations publiques générales sont saturées

Tokens audio et conception RVQ

Pour modéliser l’audio avec un transformer, la forme d’onde continue est convertie en séquences discrètes de tokens audio
Les approches modernes utilisent généralement deux types de tokens
- tokens sémantiques : ils compressent le sens et les caractéristiques phonémiques, au prix d’une partie de la fidélité
- tokens acoustiques : ils conservent des informations acoustiques fines, permettant une reconstruction haute fidélité et la préservation de caractéristiques comme l’identité du locuteur et le timbre
L’approche classique consiste à modéliser d’abord les tokens sémantiques, puis à générer l’audio via RVQ ou des méthodes fondées sur la diffusion
Cette approche en deux étapes permet une synthèse structurée, mais crée un goulot d’étranglement où les tokens sémantiques doivent aussi porter suffisamment de prosodie
Les approches fondées sur RVQ doivent gérer des dépendances séquentielles entre codebooks au sein d’une même trame
- le delay pattern décale progressivement les codebooks supérieurs afin de les conditionner sur les codebooks inférieurs de la même trame
- si le tokenizer RVQ comporte N codebooks, il faut N étapes de backbone avant de décoder le premier segment audio, ce qui dégrade le time-to-first-audio
- cela convient à des usages hors ligne comme les livres audio, mais la latence devient problématique dans des scénarios temps réel

Architecture de CSM et mode d’inférence

CSM est un modèle multimodal texte-voix qui manipule directement les tokens RVQ
Son architecture se divise en deux transformers autorégressifs
- le premier, un backbone multimodal, reçoit en entrée alternée texte et audio et modélise le codebook 0
- le second, un décodeur audio, utilise une linear head distincte pour chaque codebook afin de modéliser les N−1 codebooks restants et reconstruire la parole
Le décodeur est bien plus petit que le backbone, ce qui permet une génération à faible latence tout en conservant un modèle end-to-end
L’inférence suit le déroulement suivant
- les tokens texte et audio sont injectés séquentiellement dans le backbone
- le backbone prédit le niveau du codebook 0
- le décodeur échantillonne les niveaux 1 à N−1 en se conditionnant sur le niveau 0
- les tokens audio reconstruits sont réinjectés autorégressivement dans le backbone pour l’étape suivante
- lorsque le symbole audio EOT apparaît, la génération s’arrête, et lors de la requête suivante un audio intermédiaire comme une parole utilisateur est représenté sous forme de tokens de transcription audio-texte
Les deux transformers sont des variantes de l’architecture Llama, et les tokens texte sont générés avec le tokenizer Llama
L’audio est traité avec Mimi, un tokenizer split-RVQ, qui produit à 12.5 Hz un codebook sémantique et N−1 codebooks acoustiques par trame
Les exemples d’entraînement suivent un schéma alternant texte et audio, et l’identité du locuteur est directement encodée dans la représentation textuelle

Efficacité d’entraînement et données

Pendant l’entraînement, le décodeur audio traite autorégressivement une taille de batch effective B×S et N codebooks, ce qui crée une forte pression mémoire
Cette contrainte ralentit l’entraînement, même sur de petits modèles, et complique la montée en échelle ainsi que l’expérimentation rapide
Pour réduire ce goulot d’étranglement tout en conservant la fidélité de l’ensemble des codebooks RVQ, Sesame utilise une amortisation du calcul
- le décodeur audio n’est entraîné que sur un sous-ensemble aléatoire de 1/16 des trames audio
- le codebook 0 est entraîné sur toutes les trames
- avec cette méthode, aucune différence perceptible n’a été observée sur la perte du décodeur audio pendant l’entraînement
Le dataset est constitué à partir d’audio public après transcription, séparation des locuteurs, segmentation puis filtrage
Après filtrage, les données représentent environ 1 million d’heures, majoritairement en anglais
Trois tailles de modèle ont été entraînées
- Tiny : backbone 1B, décodeur 100M
- Small : backbone 3B, décodeur 250M
- Medium : backbone 8B, décodeur 300M
Chaque modèle a été entraîné pendant 5 epochs avec une longueur de séquence de 2048, soit environ 2 minutes d’audio

Exemples et protocole d’évaluation

Les exemples incluent des éléments paralinguistiques, des mots étrangers, de l’expressivité contextuelle, de la correction de prononciation et des dialogues à plusieurs locuteurs
L’ensemble d’évaluation mesure quatre aspects
- fidélité au texte
- utilisation du contexte
- prosodie
- latence
Les évaluations objectives incluent le WER, de nouveaux tests de prononciation et la similarité du locuteur
Les évaluations subjectives reposent sur une étude humaine en Comparative Mean Opinion Score (CMOS) à partir du dataset Expresso
Sur les benchmarks traditionnels comme le WER et la speaker similarity, les modèles récents, dont CSM, atteignent presque le niveau humain, ce qui indique un état proche de la saturation

Évaluation de la prononciation et de la compréhension du contexte

Un nouveau benchmark fondé sur la transcription vocale a été introduit pour mieux évaluer la prononciation et la compréhension du contexte
La distinction des homographes évalue la capacité à prononcer correctement des mots qui s’écrivent de la même manière mais se prononcent différemment
- l’exemple donné est “lead”, qui peut désigner le métal /lɛd/ ou le verbe /liːd/
La cohérence de continuation en prononciation évalue si un mot ayant plusieurs variantes de prononciation reste cohérent sur plusieurs tours de dialogue vocaux
- l’exemple donné est “route”, qui peut être prononcé /raʊt/ ou /ruːt/
L’évaluation de précision sur les homographes a été menée sur 200 échantillons vocaux couvrant cinq mots — lead, bass, tear, wound et row — avec deux variantes chacun
L’évaluation de cohérence de prononciation a été menée sur 200 échantillons vocaux comprenant dix mots comme aunt, data, envelope, mobile, route, vase, either, adult, often et caramel
L’évaluation utilise wav2vec2-lv-60-espeak-cv-ft
Les résultats générés par Play.ht, Elevenlabs et OpenAI ont été produits avec les réglages et la voix par défaut de leurs API respectives
Globalement, les performances augmentent avec la taille du modèle, ce qui soutient l’hypothèse selon laquelle le scaling aide à produire une synthèse vocale plus réaliste

Résultats de l’évaluation humaine

Deux études CMOS ont été réalisées avec le dataset Expresso afin d’évaluer le naturel de CSM-Medium et la pertinence de sa prosodie
Les évaluateurs écoutaient une paire composée d’un échantillon généré par le modèle et d’un enregistrement humain réel, puis notaient l’échantillon généré sur une échelle de préférence à 7 points par rapport à la référence
La première étude présentait l’échantillon généré et l’échantillon humain sans contexte et demandait « lequel semble le plus proche d’une voix humaine »
La seconde fournissait en plus 90 secondes de contexte audio et texte antérieurs et demandait « lequel semble être la continuation la plus appropriée de la conversation »
80 personnes rémunérées ont participé, et chacune a évalué en moyenne 15 exemples
Sans contexte, les évaluateurs n’ont montré aucune préférence nette entre la voix générée et la vraie voix, ce qui suggère que l’évaluation du naturel est arrivée à saturation
Avec contexte, les évaluateurs ont préféré de manière constante les enregistrements d’origine, montrant qu’un écart subsiste avec la prosodie humaine dans la génération vocale conversationnelle

Plan d’ouverture et limites

Sesame prévoit de publier en open source les composants clés de sa recherche, et le modèle devrait être proposé sous licence Apache 2.0
Les mises à jour et contributions sont disponibles sur le dépôt GitHub SesameAILabs/csm
CSM est actuellement entraîné principalement sur des données anglaises
- en raison de la contamination des données, certaines capacités multilingues apparaissent, mais elles ne fonctionnent pas encore bien
- il n’exploite pas non plus les informations contenues dans les poids de modèles de langage préentraînés
Au cours des prochains mois, l’équipe prévoit d’augmenter la taille des modèles, l’ampleur du dataset et la prise en charge à plus de 20 langues
Elle explore aussi des méthodes tirant parti de modèles de langage préentraînés, avec l’objectif de construire un grand modèle multimodal doté d’une connaissance approfondie de la voix et du texte
CSM génère une prosodie conversationnelle de haute qualité, mais ne modélise que le texte et le contenu vocal d’une conversation, pas sa structure elle-même
La conversation humaine est un processus complexe qui inclut l’alternance des tours, les pauses et l’ajustement du rythme ; les futures conversations IA devraient donc se rapprocher de modèles fully duplex apprenant implicitement ces dynamiques à partir des données
Les modèles fully duplex exigeront des changements fondamentaux sur l’ensemble de la stack, de la curation des données aux méthodologies de post-entraînement

Dépasser l’étrange vallée de la voix conversationnelle

Présence vocale et objectif

Formulation du problème du Conversational Speech Model

Tokens audio et conception RVQ

Architecture de CSM et mode d’inférence

Efficacité d’entraînement et données

Exemples et protocole d’évaluation

Évaluation de la prononciation et de la compréhension du contexte

Résultats de l’évaluation humaine

Plan d’ouverture et limites

À lire aussi

Aucun commentaire pour le moment.