3 points par GN⁺ 2025-06-12 | 1 commentaires | Partager sur WhatsApp
  • Chatterbox est le dernier modèle open source de TTS (synthèse vocale) publié par Resemble AI
  • Lors d’évaluations comparatives face au concurrent ElevenLabs, il a montré des résultats systématiquement préférés
  • Il intègre des fonctions propres, comme le contrôle de l’exagération émotionnelle, permettant diverses expressions vocales
  • L’entraînement a été réalisé avec un backbone Llama de 500 millions de paramètres et 500 000 heures de données nettoyées
  • Toutes les voix générées embarquent un watermark Perth pour aider à prévenir l’usage non autorisé et la falsification

Présentation de Chatterbox TTS et importance

  • Chatterbox est un modèle open source de TTS (text-to-speech) de niveau production développé par Resemble AI
  • Il est distribué sous licence MIT, donc librement exploitable, et des résultats montrent une qualité supérieure même face à des modèles commerciaux propriétaires (ex. : ElevenLabs)
  • Il peut être appliqué à l’ensemble de la création de contenu, comme la vidéo, les mèmes, les jeux ou les agents IA, et il est le premier TTS open source à proposer un contrôle de l’exagération émotionnelle
  • Des démonstrations et usages réels sont possibles via l’application Hugging Face Gradio ou sa propre API ; pour les besoins à grande échelle ou à forte exigence de précision, une API commerciale (ultra-faible latence inférieure à 200 ms) est proposée

Principales caractéristiques

  • TTS zero-shot de pointe : permet d’exprimer divers styles de locuteurs sans données supplémentaires
  • Backbone Llama 0.5B : applique une architecture de grand modèle de langage à la synthèse vocale
  • Réglage de l’exagération/intensité émotionnelle : offre un contrôle fin de l’intensité de la personnalité et des émotions pour chaque locuteur
  • Alignment-informed inference : reflète les informations d’alignement entre phonèmes et audio pour offrir une qualité de génération ultra stable
  • 0.5M heures de données nettoyées : entraînement sur un jeu de données vocales massif et de haute qualité
  • Watermarking intégré : le watermarking Perth (Perceptual Threshold) de Resemble AI permet la traçabilité des contenus générés et la prévention des usages non autorisés
  • Script de conversion vocale : intègre une fonctionnalité voice conversion facile à utiliser
  • Validation des performances : résultats disponibles montrant une évaluation supérieure à ElevenLabs

Conseils d’utilisation

  • TTS général / agents vocaux : avec les valeurs par défaut (Exaggeration=0.5, cfg_weight=0.5), on obtient une qualité équilibrée dans la plupart des situations
    • Pour les styles de locuteurs rapides, ajuster cfg_weight autour de 0.3 peut offrir un débit plus naturel
  • Synthèse vocale émotionnelle / dramatique : augmenter Exaggeration à 0.7 ou plus et réduire cfg_weight renforce l’effet dramatique de l’énonciation
    • Plus l’intensité émotionnelle (exaggeration) est élevée, plus le débit de parole s’accélère ; réduire cfg_weight permet d’obtenir une parole plus lente et plus nette

Langues prises en charge

  • Actuellement, seul l’anglais est pris en charge

Open source de référence / dépendances

  • Intègre diverses technologies récentes de modèles vocaux et linguistiques, dont Cosyvoice, Real-Time-Voice-Cloning, HiFT-GAN, Llama 3 et S3Tokenizer

Watermarking Perth intégré

  • Watermarking Perth (Perceptual Threshold) : insère dans toutes les voix générées un watermark neuronal sans dégradation de la qualité audio
  • Le watermark est conservé même après compression MP3, édition audio et traitement
  • Une détection automatique avec une précision proche de 100 % est possible, ce qui aide à la traçabilité de l’original, à la prévention de la falsification et à un usage responsable de l’IA

Exemple d’extraction du watermark

  • Il est possible de vérifier la présence de ce watermark via un script séparé
  • En utilisant le package Python perth et librosa, on peut extraire la valeur du watermark (0 ou 1) depuis l’audio

Communauté

  • Une communauté Discord officielle est en activité, et chacun peut la rejoindre et collaborer

Clause de non-responsabilité

  • L’usage malveillant de ce modèle est interdit, et les prompts n’utilisent que des données publiquement disponibles sur Internet

1 commentaires

 
GN⁺ 2025-06-12
Réactions sur Hacker News
  • J’ai vu l’avertissement indiquant que tous les fichiers audio générés avec Chatterbox contiennent le filigrane Perth (Perceptual Threshold) de Resemble AI
    Ils le présentent comme des imperceptible neural watermarks, capables de survivre à la compression MP3, à l’édition audio et à divers types d’altération, avec une précision de détection proche de 100 %
    Mais je me demande s’il ne suffit pas simplement de commenter l’appel à la fonction apply_watermark dans tts.py pour désactiver facilement l’insertion du filigrane
    Pour ce type de filigrane, j’imaginais justement que l’objectif était de le cacher directement dans le modèle pour éviter qu’il soit retiré trop facilement
    Ajouter un filigrane à un modèle open source comme simple étape de post-traitement fait se demander pourquoi l’ajouter du tout
  • J’imagine que c’est surtout une forme de geste CYA (Cover Your Ass, se couvrir)
    Un peu comme le content filter présent dans la version originale de Stable Diffusion
    Il est aussi possible que cela vise à empêcher la contamination des données d’entraînement
  • Il y a même un flag --no-watermark dans le parser
    Au final, on dirait qu’ils l’ont ajouté comme une “fonctionnalité” destinée aux utilisateurs qui voudront l’intégrer dans un produit plus large
  • En dehors d’OpenAI, Google et ElevenLabs, les autres acteurs deviendront complètement non pertinents s’ils ne misent pas sérieusement sur l’open source
    Les leaders du marché TTS sont déjà bien identifiés, et des acteurs comme Resemble ou PlayHT doivent publier le poids des modèles et le code source s’ils veulent récupérer ne serait-ce qu’un peu de part de marché auprès des développeurs
    Le watermarking relève surtout d’une logique CYA pour répondre aux critiques sur les abus liés aux médias
    Sans ce genre de dispositif, les médias et le camp anti-IA (404Media, etc.) soulèveraient immédiatement la question des abus
    Publier le code source, les poids, et proposer séparément une API ou des options de fine-tuning me paraît être la bonne direction
    À titre de référence, article de 404Media
  • La page de démo est ici
    Si les audios de démo ne sont pas trop triés sur le volet, je trouve que c’est vraiment une excellente sortie
    Comme je le dis souvent, dans la pratique, avec l’IA vocale, la limite reste plus souvent la reconnaissance vocale (transcription) que la qualité TTS elle-même
    À moins que ça n’ait changé récemment, cela reste encore le principal point faible
  • D’après mon expérience récente, les LLM lisent et exploitent déjà très bien même des transcriptions erronées
    Je n’ai pas encore essayé de leur fournir plusieurs versions d’une transcription ou des niveaux de confiance, mais j’ai l’impression qu’ils sauraient en tirer parti efficacement
  • J’ai effectivement essayé Speechmatics, et j’ai trouvé la qualité de transcription tout à fait exploitable
  • En l’essayant moi-même via la démo Hugging Face, les expressions émotionnelles ne m’ont pas semblé aussi naturelles que sur la page de démo, ce qui donnait un peu l’impression d’exemples soigneusement sélectionnés
  • Je me demande s’il ne serait pas possible de surmonter les problèmes de transcription avec des données synthétiques
  • J’ai vraiment apprécié le fait que la démo contienne directement des grossièretés
    C’est aussi amusant que la phrase vienne de Pulp Fiction
    Les démos habituelles sont toujours tellement fades et inoffensives que ça devient lassant
    Dans la communauté TTS indé, on utilise souvent le Navy Seals copypasta, donc voir une entreprise de services comme Resemble inclure ce type de phrase est assez rafraîchissant
    Wiki Copypasta, exemple de Navy Seal copypasta
  • On peut l’essayer gratuitement ici
  • Je me suis bien amusé à l’utiliser
    Quand j’y mets mon accent australien, le résultat sonne très britannique, avec une prononciation RP extrêmement policée
    Le rendu paraît très naturel, mais il ne donne clairement pas l’impression de reproduire mon accent
    Pour des usages réels, on cherche souvent avant tout une voix claire et naturelle, donc pour ça c’est parfaitement adapté
  • Malheureusement, le code d’entraînement ou de fine-tuning n’a pas été publié, donc ce n’est pas “complètement ouvert” au niveau de Flux ou Stable Diffusion
    Parmi les meilleurs modèles “open”, on trouve
    • TTS zeroshot : MaskGCT, MegaTTS3
    • VC zeroshot : Seed-VC, MegaTTS3
      En pratique, seul Seed-VC fournit le code d’entraînement/fine-tuning, mais tous ont de meilleures performances zeroshot que Chatterbox
      En particulier, le MegaTTS3 de ByteDance est à un niveau que pratiquement aucune entreprise ne peut suivre, hors ElevenLabs
      ByteDance surclasse tout le monde en argent, en personnel et en données
      Si votre objectif est la reproduction vocale zeroshot sans fine-tuning, ces modèles sont un meilleur choix
  • Un exemple d’implémentation pour déployer une API TTS prête pour la production a aussi été publié en open source
    Le lien vers le modèle déployable est également fourni
  • Il y a aussi un exemple de code d’inférence et de clonage vocal
    Le support du streaming est encore en cours de développement
  • Je trouve que ça fonctionne remarquablement bien sur les accents vraiment courants
    Mais même avec des accents finalement assez répandus, on entend des interférences d’autres accents (par exemple un enregistrement écossais qui ressort avec une teinte australienne)
    L’accent du Yorkshire est lui aussi mal capté
  • Quand j’ai essayé avec un accent écossais, même mon propre accent australien a été transformé en RP britannique
  • À mon avis, le problème vient davantage des caractéristiques de l’accent écossais que du modèle lui-même
  • Ça sonne comme un acteur qui imite un accent britannique
  • Question sur le matériel : est-ce que ça tourne avec une configuration minimale ?
  • D’après la page des issues GitHub, l’optimisation est encore assez limitée
    Donc, dans son état actuel, il faut un matériel grand public plutôt costaud
    Mais il y a probablement beaucoup de marge pour de futures optimisations
    Lien vers l’issue
  • D’après cette issue, il faut 6 à 7 Go de VRAM
    Si le modèle en vaut vraiment la peine, quelqu’un finira sans doute par trouver comment le faire tourner avec moins de VRAM
    Je l’ai moi-même lancé sur une vieille Nvidia 2060, avec un pic d’environ 5 Go de VRAM
  • Ce n’est absolument pas une question mineure, c’est même une excellente question
    On peut le faire tourner gratuitement, mais le coût réel peut finir par retirer tout intérêt à l’auto-hébergement
  • Je me suis posé exactement la même question et j’ai cherché aussi
    Je voulais savoir s’il fallait un GPU coûteux, ou si ça pouvait tourner sur un portable vieux de 12 ans
  • J’allais partager mon retour sur une exécution sur un vieux CPU, mais j’ai passé plus de 30 minutes à enchaîner installation et erreurs
    Parmi les problèmes rencontrés :
    • Python 3.13 non pris en charge, et réinitialisation d’un environnement virtuel 3.12 avec uv
    • numpy 1.26.4 non détecté, uv pip ne cherchant que dans le dépôt PyTorch
    • la version pip install chatterbox-tts est buguée en mode CPU only
    • la version main par défaut nécessite protobuf-compiler sur Debian
    • erreur CMake inconnue, avec plainte sur l’absence des en-têtes de développement Python
      À force de retomber sur ce genre de galères dès qu’on essaie d’exécuter le projet Python de quelqu’un d’autre, ça devient épuisant
  • L’exagération des émotions m’a paru intéressante, mais je n’ai pas encore trouvé de service qui permette de “sculpter” le timbre vocal voulu uniquement via une description textuelle, comme ElevenLabs
    SparkTTS expose un peu plus de paramètres, et son code GitHub laisse entrevoir des possibilités de contrôle émotionnel plus fines
    Dans mon cas, en poussant fortement les indications textuelles sur la prosody et la tonality, j’ai parfois réussi à approcher le concept recherché sur certains modèles
    Mais cela reste bien plus fastidieux que l’approche intuitive de conception émotionnelle proposée par ElevenLabs
  • Retour après avoir testé la démo avec un extrait de ma propre voix
    • la sortie reprenait dans une certaine mesure le caractère de ma voix, mais sans être extrêmement proche
      Cela reste tout de même assez impressionnant d’arriver à ce niveau avec un échantillon aussi court
    • dès qu’on augmente un peu trop les valeurs de CFG/pace, l’audio devient immédiatement difficile à comprendre
    • mon accent est australien, mais la sortie alterne entre britannique et américain
    • les émotions exagérées étaient amusantes, mais l’émotion produite changeait à chaque fois
  • Je me demande si ce type de modèle TTS peut aller jusqu’à lire un livre de manière convaincante, ou si la cohérence vocale se dégrade après quelques paragraphes
  • La plupart des systèmes TTS se dégradent sur les longs textes, donc en pratique il vaut mieux découper la lecture par paragraphes puis recoller le tout
    Et si l’échantillon wave one-shot contient du bruit, Chatterbox offre parfois en bonus un étrange son non identifié à la fin
    En particulier quand il lit quelque chose comme la Divine Comédie de Dante, on obtient presque une expérience de “sons de l’enfer”
  • Un jour, quand la qualité sera suffisamment bonne, Audible sera sans doute rempli d’audiobooks narrés par IA
    (Reste seulement à savoir si Amazon l’indiquera clairement)
  • J’ai moi-même généré un audiobook complet à partir d’un epub, et j’ai obtenu un résultat tout à fait correct avec cet outil
    outil de conversion audiobook audiblez
  • Je conseille une entreprise du secteur, et j’affirme sans hésiter qu’avec la technologie actuelle, il n’y a aucun problème à faire de la lecture de livres
  • Il y a un an, j’avais synthétisé pour m’amuser un audiobook de thérapie de Carl Rogers dans un style Attenbrough pour un ami, et même à l’époque la qualité était déjà très bonne
    Un an plus tard, c’est forcément encore meilleur