18 points par GN⁺ 2026-01-16 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Pocket TTS, un modèle léger de synthèse vocale de 100 millions de paramètres, intègre une fonction de clonage vocal et peut fonctionner en temps réel sur le CPU d’un ordinateur portable standard
  • Il réduit l’écart de performances entre les TTS basés sur de grands LLM (plus d’un milliard de paramètres) et le petit Kokoro TTS (82 millions de paramètres), en atteignant à la fois haute qualité et efficacité
  • Avec seulement environ 5 secondes d’échantillon vocal, il reproduit fidèlement le timbre, l’émotion, l’intonation et les conditions acoustiques du locuteur
  • Son architecture basée sur un Continuous Audio Language Model prédit directement des vecteurs latents continus au lieu de tokens discrets, ce qui réduit la taille du modèle sans dégrader la qualité
  • Publié en open source sous licence MIT, il établit une nouvelle référence pour les technologies TTS légères capables d’offrir une synthèse vocale de haute qualité sur CPU

Vue d’ensemble de Pocket TTS

  • Pocket TTS est un modèle de synthèse vocale de 100 millions de paramètres prenant en charge le clonage vocal (voice cloning)
    • Il peut fonctionner en temps réel même sur le CPU d’un ordinateur portable
    • Exécution locale possible avec les commandes uvx pocket-tts serve ou uvx pocket-tts generate
  • Il a été développé par Kyutai et publié en open source sous licence MIT
    • Les données d’entraînement utilisent uniquement des jeux de données vocaux publics en anglais
    • La possibilité d’une extension avec des données privées supplémentaires est évoquée

Comparaison avec les modèles TTS existants

  • Les technologies TTS actuelles se divisent en deux catégories
    • Grands modèles basés sur des LLM : par ex. Kyutai TTS 1.6B (environ 1,6 milliard de paramètres)
      • Capables de modéliser une grande variété de voix, d’émotions et de conditions acoustiques, mais nécessitent un GPU
    • Petits modèles spécialisés : par ex. Kokoro TTS (82 millions de paramètres)
      • Efficaces grâce à un ensemble de voix fixe et à des pipelines artisanaux, mais avec une flexibilité limitée
  • Pocket TTS se situe à mi-chemin entre ces deux approches et permet une synthèse vocale de haute qualité sur CPU

Évaluation des performances

  • Évaluation réalisée sur le jeu Librispeech test-clean
    • Les entrées audio ont été nettoyées avec Adobe Enhance Speech afin d’obtenir une qualité de 24 kHz
  • Modèles comparés : F5-TTS, DSM, Chatterbox Turbo, Kokoro TTS
  • Indicateurs d’évaluation :
    • Word Error Rate (WER)
    • Qualité audio (ELO)
    • Similarité du locuteur (ELO)
  • Résumé des résultats :
    • Pocket TTS affiche le WER le plus bas avec 1,84
    • Sa qualité audio est supérieure à celle de F5-TTS et DSM
    • Sa similarité du locuteur est au niveau de la voix de référence
    • C’est le seul modèle capable de fonctionner plus vite que le temps réel sur CPU
Modèle Nombre de paramètres WER ↓ Qualité audio (ELO) ↑ Similarité du locuteur (ELO) ↑ Exécution temps réel sur CPU
F5-TTS 336M 2.21 1949 ± 27 1946 ± 26
Kyutai TTS 1.6B 750M 1.84 1959 ± 25 2037 ± 21
Chatterbox Turbo 350M 3.24 2055 ± 23 2012 ± 22
Kokoro 82M 1.93 pas de clonage vocal pas de clonage vocal
Pocket TTS 100M 1.84 2016 ± 25 1898 ± 26
  • Lors des tests sur les CPU Intel Core Ultra 7 165H et Apple M3, seuls Pocket TTS et Kokoro ont permis une synthèse en temps réel

Architecture

  • Pocket TTS a été conçu à partir des recherches sur les Continuous Audio Language Models
    • Les approches existantes prédisaient des tokens audio discrets, tandis que Pocket TTS prédit directement des vecteurs latents continus (latents)
    • Cela permet de supprimer le goulot d’étranglement du RQ-transformer et d’alléger le modèle

Neural Audio Codec

  • Architecture conçue sur la base du codec Mimi
    • Mimi compresse en tokens discrets, mais Pocket TTS utilise une représentation latente continue
    • Application d’un entraînement VAE normalisé par une distribution normale
    • Distillation de WavLM vers des représentations internes avec une perte de similarité cosinus
    • Suppression de l’étape RVQ et application de la perte de distillation à l’ensemble de la représentation latente

Modèle génératif

  • Basé sur le framework Masked Autoregressive (MAR)
    • Composé d’une colonne vertébrale Transformer causale et d’un échantillonneur MLP
    • Utilise une perte Lagrangian Self-Distillation (LSD) pour réaliser un échantillonnage en 1 étape
    • En inférence, les vecteurs latents prédits sont réinjectés de manière autorégressive

Conditionnement par la voix et le texte

  • L’entrée du modèle combine un prompt vocal (quelques secondes) et du texte
    • La voix est encodée par l’encodeur du codec, le texte par un tokenizer SentencePiece

Répartition de la taille du modèle

  • Modèle génératif (Transformer + MLP) : 90 millions de paramètres
  • Décodeur du codec : 10 millions de paramètres
  • Encodeur du codec : 18 millions de paramètres (utilisé une seule fois lors de l’encodage de l’échantillon vocal)

Données d’entraînement

  • Entièrement constituées de jeux de données vocaux publics en anglais, pour un total de 88 000 heures
    • AMI, EARNINGS22, GIGASpeech, SPGISpeech, TED-LIUM, VoxPopuli, LibriHeavy, Emilia

Principales contributions techniques

Head Batch Multiplier

  • Réutilisation multiple du vecteur z afin d’atténuer le goulot d’étranglement de calcul du Transformer
    • Pour chaque séquence d’entrée, z est calculé une fois puis réutilisé pour 8 calculs de perte
    • Effets : amélioration de l’efficacité et stabilisation de l’entraînement

Gaussian Temperature Sampling

  • Application d’un contrôle de la température d’échantillonnage même dans un espace continu
    • Réduction de la variance du bruit gaussien pour améliorer la qualité
    • De bons résultats ont été observés avec une température de 0,7

Latent Classifier-Free Guidance (Latent CFG)

  • Application du CFG classique au niveau des variables latentes (z)
    • Combinaison linéaire des sorties conditionnelles et non conditionnelles pour améliorer la qualité
    • Utilisation de α=1.5
    • Un concept similaire apparaît aussi dans les recherches sur SoundReactor

Distillation

  • Utilisation d’un modèle CFG comme modèle enseignant pour distiller un modèle étudiant léger
    • La tête MLP du modèle enseignant est figée, et le modèle étudiant apprend z avec une perte L2
    • Réduction possible d’un modèle enseignant de 24 couches vers un modèle étudiant de 6 couches

Conclusion

  • Pocket TTS est un modèle TTS léger capable de produire une synthèse vocale de haute qualité en temps réel sur CPU
  • Il combine une architecture fondée sur un espace latent continu, des techniques d’entraînement efficaces et une fonction de clonage vocal
  • Publié en open source sous licence MIT, il offre aux développeurs et chercheurs reproductibilité et extensibilité

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.