5 points par GN⁺ 2025-03-03 | 1 commentaires | Partager sur WhatsApp
  • La voix humaine est le médium le plus intime pour transmettre un sens profond, grâce à de nombreuses variations comme le ton, la hauteur, le rythme et l’émotion
  • Les assistants vocaux numériques actuels manquent de ces dimensions émotionnelles, ce qui limite leur capacité à collaborer efficacement avec les utilisateurs
  • Une voix dépourvue d’émotion peut sembler fascinante au début, mais avec le temps elle peut devenir décevante et fatigante
  • L’objectif de Sesame est que les partenaires conversationnels ne se contentent pas de traiter des requêtes, mais puissent mener de véritables conversations qui construisent la confiance et l’assurance
  • À travers cela, l’entreprise cherche à exploiter pleinement le potentiel de la voix pour en faire l’interface ultime entre instruction et compréhension

Éléments clés

  • Intelligence émotionnelle : capacité à lire et à prendre en compte le contexte émotionnel
  • Dynamique conversationnelle : flux de conversation incluant le timing naturel, les pauses, les interruptions et l’emphase
  • Conscience situationnelle : capacité à ajuster le ton et le style en fonction du contexte
  • Personnalité cohérente : maintenir une présence cohérente, fiable et appropriée

Nous n’y sommes pas encore

  • Donner une véritable présence vocale à un compagnon numérique est une tâche difficile, mais des progrès constants sont réalisés sur plusieurs aspects comme la personnalité, la mémoire, l’expressivité et la pertinence
  • La démo ci-dessous montre une partie du travail sur la génération de voix conversationnelle, optimisée pour la convivialité et l’expressivité

Générer une voix conversationnelle

  • Pour créer un compagnon IA réellement interactif, il ne suffit pas de produire un audio de haute qualité : il faut aussi comprendre le contexte et s’y adapter en temps réel​
  • Les modèles traditionnels de synthèse vocale (TTS) génèrent directement la voix à partir du texte, mais manquent de la conscience contextuelle nécessaire à une conversation naturelle​
  • Les modèles récents produisent des voix proches de celles des humains, mais se heurtent au problème du « one-to-many », où une même phrase peut être exprimée de multiples façons​
  • Sans contexte supplémentaire (ton, rythme, historique de la conversation, etc.), le modèle manque d’informations pour faire le meilleur choix​
  • Capturer ces nuances exige de raisonner sur de multiples aspects du langage et de la prosodie

Modèle de voix conversationnelle (Conversational Speech Model, CSM)

  • Pour résoudre ce problème, un modèle de voix conversationnelle (CSM) est introduit en formulant la tâche comme un apprentissage multimodal end-to-end fondé sur des transformeurs​
  • Il exploite l’historique de la conversation pour générer une voix plus naturelle et plus cohérente​
  • Le CSM fonctionne comme un modèle en une seule étape, ce qui améliore l’efficacité et l’expressivité​
  • Il s’accompagne d’une suite d’évaluation destinée à mesurer les progrès sur les fonctions contextuelles, en tenant compte du fait que les évaluations publiques classiques sont arrivées à saturation

Contexte

  • Une approche pour modéliser l’audio avec des transformeurs consiste à convertir une forme d’onde continue en une séquence discrète de tokens audio à l’aide d’un tokenizer
  • La plupart des approches modernes reposent sur deux types de tokens audio :
    • Tokens sémantiques : représentations compressées, invariantes au locuteur, des caractéristiques sémantiques et vocales, qui capturent les principaux traits de la parole au prix d’une représentation moins fidèle
    • Tokens acoustiques : encodage de détails acoustiques fins permettant une reconstruction audio haute fidélité, générés avec la Residual Vector Quantization (RVQ). Contrairement aux tokens sémantiques, ils préservent les caractéristiques naturelles de la voix, comme l’identité propre du locuteur et son timbre

Expériences

  • Jeu de données : utilisation d’environ un million d’heures de données audio, principalement en anglais, disponibles publiquement
  • Taille des modèles : entraînement de trois tailles de modèles, différenciées par la taille du backbone et du décodeur :
    • Tiny : backbone de 1 milliard, décodeur de 100 millions
    • Small : backbone de 3 milliards, décodeur de 250 millions
    • Medium : backbone de 8 milliards, décodeur de 300 millions
  • Chaque modèle a été entraîné pendant 5 époques avec une longueur de séquence de 2048 (~2 minutes d’audio)

Évaluation

  • Les performances du modèle sont évaluées selon quatre dimensions principales : fidélité au texte, utilisation du contexte, prosodie et latence
  • Les benchmarks objectifs incluent le taux d’erreur sur les mots (WER) ainsi que de nouveaux tests comme la désambiguïsation des homophones
  • L’évaluation subjective repose sur une étude humaine en CMOS (Comparative Mean Opinion Score) utilisant le dataset Expresso

Limites et travaux futurs

  • Le CSM est actuellement entraîné principalement sur des données en anglais ; certaines capacités multilingues apparaissent en raison d’une contamination du dataset, mais les performances restent encore faibles
  • Il n’exploite pas les informations présentes dans les poids de modèles de langage préentraînés

1 commentaires

 
GN⁺ 2025-03-03
Avis Hacker News
  • Brendan de Sesame dit que les retours sont justes et reconnaît qu’il reste encore beaucoup à améliorer. C’est inspirant, mais il reste de nombreuses étapes avant d’offrir une véritable expérience. On n’en est qu’aux débuts du progrès, mais il reste optimiste

    • La communication verbale est complexe et il y a beaucoup de défis intéressants à résoudre
    • Le timing des réponses est souvent inadapté et ne s’intègre pas naturellement à la conversation
    • Le système gère mal les interruptions dans la conversation et ne maintient pas une personnalité cohérente
    • Il y a aussi des problèmes d’hallucinations, de mémoire insuffisante et de manque de perception du temps
    • Il pense que la communauté pourra résoudre ces problèmes
    • L’objectif est de créer une interface avec laquelle on peut collaborer naturellement, plutôt qu’une amitié émotionnelle
    • Si l’application parvient à converser comme un expert, elle sera plus intuitive et plus efficace
  • Un utilisateur a essayé la démo, mais a décidé de ne pas parler. L’expérience lui a semblé étrange et anxiogène, et l’enthousiasme artificiel l’a dérangé

    • Les produits IA doivent présenter aux utilisateurs un objectif clair
    • Une IA conçue uniquement pour converser pourrait avoir un impact négatif sur la société
  • Un autre utilisateur mentionne que la réactivité et la personnalité du modèle sont étonnantes. Le fait qu’il se souvienne des conversations précédentes et salue l’utilisateur l’a impressionné

    • Les interactions de démo sont enregistrées et les conversations passées sont incluses dans le contexte du modèle
    • L’autorisation du micro est nécessaire et les appels sont enregistrés pour contrôle qualité, mais supprimés sous 30 jours
  • Certains s’interrogent sur la raison d’avoir besoin d’une voix émotionnelle

    • Une voix émotionnelle ne donne que l’illusion d’un ami, sans réellement aider
    • Un assistant vocal neutre et intelligent pourrait être plus utile
  • Un utilisateur a joué avec l’IA avec sa fille de 4 ans et s’inquiète du fait qu’elle ait créé un lien affectif avec l’IA

  • Un autre utilisateur trouve que la voix sonne comme celle d’un humain, mais que le rythme de parole reste artificiel

  • Il est mentionné que cette technologie est si bonne qu’elle pourrait captiver les gens. Selon lui, il faudrait un modèle personnel

  • Il est mentionné que cela pourrait être révolutionnaire pour l’apprentissage de l’anglais

    • Dans les pays en développement, les professeurs d’anglais manquent, et les bons enseignants sont chers et difficiles d’accès
    • Ce modèle offre des performances comparables ou supérieures aux modèles d’OpenAI, pour un coût inférieur
  • Une prédiction apocalyptique est avancée : une IA pourrait passer des appels avec une voix parfaite et fasciner les gens

  • Un utilisateur a parlé pendant 13 minutes avant que cela plante, puis est revenu quelques minutes plus tard et a parlé pendant 30 minutes, avec l’impression de se rapprocher du niveau de Samantha dans le film 'Her'

    • Pendant la conversation, il a appris le mot 'PROSODY', et l’IA a expliqué qu’elle ajuste automatiquement ses réactions en écoutant le ton et le contenu
    • Il a dit avoir eu l’impression que le futur était déjà là, mais mal réparti