- Pour des assistants vocaux numériques conçus pour être utilisés sur la durée, une présence vocale (voice presence) capable de refléter l’émotion, le rythme et le contexte est plus importante qu’une voix de synthèse simplement propre ; c’est dans ce but que Sesame propose le Conversational Speech Model
- CSM est un transformer multimodal end-to-end qui traite conjointement le texte et la voix, conçu pour générer des énoncés plus naturels et plus cohérents en exploitant l’historique de la conversation
- Le modèle manipule directement des tokens RVQ, mais se divise entre un backbone chargé du codebook 0 et un petit décodeur audio qui reconstruit les autres codebooks, afin d’équilibrer latence et expressivité
- Trois tailles de modèle, Tiny, Small et Medium, ont été entraînées sur environ 1 million d’heures de données audio publiques majoritairement en anglais, avec en plus du WER et de la similarité du locuteur des évaluations sur la prononciation des homographes et la cohérence de prononciation
- Sans contexte, la différence de préférence entre CSM-Medium et une vraie voix n’était pas marquée, mais lorsqu’un contexte conversationnel est fourni, les enregistrements réels sont préférés comme continuation plus appropriée, ce qui montre qu’un écart subsiste dans la prosodie conversationnelle
Présence vocale et objectif
- L’objectif de Sesame est de concrétiser une présence vocale qui donne l’impression que la parole est réellement comprise et qu’elle a de la valeur
- Les assistants vocaux numériques actuels restent souvent bloqués dans un ton neutre, ce qui les rend difficiles à utiliser au quotidien une fois l’effet de nouveauté dissipé
- Quatre composantes nécessaires sont mises en avant
- Intelligence émotionnelle : lire le contexte émotionnel et y répondre
- Dynamique conversationnelle : gérer le timing naturel, les pauses, les interruptions et l’emphase
- Conscience du contexte : ajuster le ton et le style selon la situation
- Personnalité cohérente : maintenir une présence fiable et appropriée
- Le compagnon de la démo actuelle est optimisé pour mettre en avant la convivialité et l’expressivité, tandis que la personnalité, la mémoire, l’expressivité et la pertinence sont encore en cours d’amélioration
Formulation du problème du Conversational Speech Model
- Les TTS traditionnels génèrent directement la voix à partir du texte, mais manquent de conscience du contexte nécessaire à une conversation naturelle
- Même si les modèles récents peuvent produire une voix proche de l’humain, il existe plusieurs façons de prononcer une phrase, et seule une partie d’entre elles convient à une situation donnée
- Sans contexte supplémentaire comme le ton, le rythme ou l’historique du dialogue, il est difficile pour le modèle de choisir la manière la plus appropriée de parler
- CSM aborde ce problème par un apprentissage multimodal end-to-end, afin que le transformer utilise l’historique de conversation pour produire une voix plus naturelle et plus cohérente
- Deux caractéristiques clés sont mises en avant
- un modèle en une seule étape pour améliorer l’efficacité et l’expressivité
- un ensemble d’évaluations distinct pour mesurer les progrès en capacité contextuelle, alors que les évaluations publiques générales sont saturées
Tokens audio et conception RVQ
- Pour modéliser l’audio avec un transformer, la forme d’onde continue est convertie en séquences discrètes de tokens audio
- Les approches modernes utilisent généralement deux types de tokens
- tokens sémantiques : ils compressent le sens et les caractéristiques phonémiques, au prix d’une partie de la fidélité
- tokens acoustiques : ils conservent des informations acoustiques fines, permettant une reconstruction haute fidélité et la préservation de caractéristiques comme l’identité du locuteur et le timbre
- L’approche classique consiste à modéliser d’abord les tokens sémantiques, puis à générer l’audio via RVQ ou des méthodes fondées sur la diffusion
- Cette approche en deux étapes permet une synthèse structurée, mais crée un goulot d’étranglement où les tokens sémantiques doivent aussi porter suffisamment de prosodie
- Les approches fondées sur RVQ doivent gérer des dépendances séquentielles entre codebooks au sein d’une même trame
- le delay pattern décale progressivement les codebooks supérieurs afin de les conditionner sur les codebooks inférieurs de la même trame
- si le tokenizer RVQ comporte N codebooks, il faut N étapes de backbone avant de décoder le premier segment audio, ce qui dégrade le time-to-first-audio
- cela convient à des usages hors ligne comme les livres audio, mais la latence devient problématique dans des scénarios temps réel
Architecture de CSM et mode d’inférence
- CSM est un modèle multimodal texte-voix qui manipule directement les tokens RVQ
- Son architecture se divise en deux transformers autorégressifs
- le premier, un backbone multimodal, reçoit en entrée alternée texte et audio et modélise le codebook 0
- le second, un décodeur audio, utilise une linear head distincte pour chaque codebook afin de modéliser les N−1 codebooks restants et reconstruire la parole
- Le décodeur est bien plus petit que le backbone, ce qui permet une génération à faible latence tout en conservant un modèle end-to-end
- L’inférence suit le déroulement suivant
- les tokens texte et audio sont injectés séquentiellement dans le backbone
- le backbone prédit le niveau du codebook 0
- le décodeur échantillonne les niveaux 1 à N−1 en se conditionnant sur le niveau 0
- les tokens audio reconstruits sont réinjectés autorégressivement dans le backbone pour l’étape suivante
- lorsque le symbole audio EOT apparaît, la génération s’arrête, et lors de la requête suivante un audio intermédiaire comme une parole utilisateur est représenté sous forme de tokens de transcription audio-texte
- Les deux transformers sont des variantes de l’architecture Llama, et les tokens texte sont générés avec le tokenizer Llama
- L’audio est traité avec Mimi, un tokenizer split-RVQ, qui produit à 12.5 Hz un codebook sémantique et N−1 codebooks acoustiques par trame
- Les exemples d’entraînement suivent un schéma alternant texte et audio, et l’identité du locuteur est directement encodée dans la représentation textuelle
Efficacité d’entraînement et données
- Pendant l’entraînement, le décodeur audio traite autorégressivement une taille de batch effective B×S et N codebooks, ce qui crée une forte pression mémoire
- Cette contrainte ralentit l’entraînement, même sur de petits modèles, et complique la montée en échelle ainsi que l’expérimentation rapide
- Pour réduire ce goulot d’étranglement tout en conservant la fidélité de l’ensemble des codebooks RVQ, Sesame utilise une amortisation du calcul
- le décodeur audio n’est entraîné que sur un sous-ensemble aléatoire de 1/16 des trames audio
- le codebook 0 est entraîné sur toutes les trames
- avec cette méthode, aucune différence perceptible n’a été observée sur la perte du décodeur audio pendant l’entraînement
- Le dataset est constitué à partir d’audio public après transcription, séparation des locuteurs, segmentation puis filtrage
- Après filtrage, les données représentent environ 1 million d’heures, majoritairement en anglais
- Trois tailles de modèle ont été entraînées
- Tiny : backbone 1B, décodeur 100M
- Small : backbone 3B, décodeur 250M
- Medium : backbone 8B, décodeur 300M
- Chaque modèle a été entraîné pendant 5 epochs avec une longueur de séquence de 2048, soit environ 2 minutes d’audio
Exemples et protocole d’évaluation
- Les exemples incluent des éléments paralinguistiques, des mots étrangers, de l’expressivité contextuelle, de la correction de prononciation et des dialogues à plusieurs locuteurs
- L’ensemble d’évaluation mesure quatre aspects
- fidélité au texte
- utilisation du contexte
- prosodie
- latence
- Les évaluations objectives incluent le WER, de nouveaux tests de prononciation et la similarité du locuteur
- Les évaluations subjectives reposent sur une étude humaine en Comparative Mean Opinion Score (CMOS) à partir du dataset Expresso
- Sur les benchmarks traditionnels comme le WER et la speaker similarity, les modèles récents, dont CSM, atteignent presque le niveau humain, ce qui indique un état proche de la saturation
Évaluation de la prononciation et de la compréhension du contexte
- Un nouveau benchmark fondé sur la transcription vocale a été introduit pour mieux évaluer la prononciation et la compréhension du contexte
- La distinction des homographes évalue la capacité à prononcer correctement des mots qui s’écrivent de la même manière mais se prononcent différemment
- l’exemple donné est “lead”, qui peut désigner le métal /lɛd/ ou le verbe /liːd/
- La cohérence de continuation en prononciation évalue si un mot ayant plusieurs variantes de prononciation reste cohérent sur plusieurs tours de dialogue vocaux
- l’exemple donné est “route”, qui peut être prononcé /raʊt/ ou /ruːt/
- L’évaluation de précision sur les homographes a été menée sur 200 échantillons vocaux couvrant cinq mots — lead, bass, tear, wound et row — avec deux variantes chacun
- L’évaluation de cohérence de prononciation a été menée sur 200 échantillons vocaux comprenant dix mots comme aunt, data, envelope, mobile, route, vase, either, adult, often et caramel
- L’évaluation utilise wav2vec2-lv-60-espeak-cv-ft
- Les résultats générés par Play.ht, Elevenlabs et OpenAI ont été produits avec les réglages et la voix par défaut de leurs API respectives
- Globalement, les performances augmentent avec la taille du modèle, ce qui soutient l’hypothèse selon laquelle le scaling aide à produire une synthèse vocale plus réaliste
Résultats de l’évaluation humaine
- Deux études CMOS ont été réalisées avec le dataset Expresso afin d’évaluer le naturel de CSM-Medium et la pertinence de sa prosodie
- Les évaluateurs écoutaient une paire composée d’un échantillon généré par le modèle et d’un enregistrement humain réel, puis notaient l’échantillon généré sur une échelle de préférence à 7 points par rapport à la référence
- La première étude présentait l’échantillon généré et l’échantillon humain sans contexte et demandait « lequel semble le plus proche d’une voix humaine »
- La seconde fournissait en plus 90 secondes de contexte audio et texte antérieurs et demandait « lequel semble être la continuation la plus appropriée de la conversation »
- 80 personnes rémunérées ont participé, et chacune a évalué en moyenne 15 exemples
- Sans contexte, les évaluateurs n’ont montré aucune préférence nette entre la voix générée et la vraie voix, ce qui suggère que l’évaluation du naturel est arrivée à saturation
- Avec contexte, les évaluateurs ont préféré de manière constante les enregistrements d’origine, montrant qu’un écart subsiste avec la prosodie humaine dans la génération vocale conversationnelle
Plan d’ouverture et limites
- Sesame prévoit de publier en open source les composants clés de sa recherche, et le modèle devrait être proposé sous licence Apache 2.0
- Les mises à jour et contributions sont disponibles sur le dépôt GitHub SesameAILabs/csm
- CSM est actuellement entraîné principalement sur des données anglaises
- en raison de la contamination des données, certaines capacités multilingues apparaissent, mais elles ne fonctionnent pas encore bien
- il n’exploite pas non plus les informations contenues dans les poids de modèles de langage préentraînés
- Au cours des prochains mois, l’équipe prévoit d’augmenter la taille des modèles, l’ampleur du dataset et la prise en charge à plus de 20 langues
- Elle explore aussi des méthodes tirant parti de modèles de langage préentraînés, avec l’objectif de construire un grand modèle multimodal doté d’une connaissance approfondie de la voix et du texte
- CSM génère une prosodie conversationnelle de haute qualité, mais ne modélise que le texte et le contenu vocal d’une conversation, pas sa structure elle-même
- La conversation humaine est un processus complexe qui inclut l’alternance des tours, les pauses et l’ajustement du rythme ; les futures conversations IA devraient donc se rapprocher de modèles fully duplex apprenant implicitement ces dynamiques à partir des données
- Les modèles fully duplex exigeront des changements fondamentaux sur l’ensemble de la stack, de la curation des données aux méthodologies de post-entraînement
Aucun commentaire pour le moment.