Dia - un modèle TTS à poids ouverts qui génère des conversations réalistes

(github.com/nari-labs)

41 points par GN⁺ 2025-04-22 | 13 commentaires | Partager sur WhatsApp

Dia est un modèle TTS de 1,6B de paramètres qui génère des voix de dialogue de haute qualité à partir de répliques textuelles, avec contrôle des émotions et du ton via des prompts audio
Développé par Nari Labs, où « Nari » signifie « lys » en coréen pur
Il permet de désigner les locuteurs avec [S1], [S2] et de générer aussi des expressions non verbales comme (laughs) ou (coughs), tout en prenant en charge un clonage vocal simple
Exécutable directement sur Hugging Face, avec test dans le navigateur sans installation séparée et prise en charge de ZeroGPU
L’anglais uniquement est pris en charge pour le moment, avec un besoin de plus de 10 Go de VRAM, et des modèles quantifiés ainsi qu’un support multilingue sont prévus

Dia : un modèle de synthèse vocale centré sur le dialogue

Dia est un modèle TTS à poids ouverts de 1,6B de paramètres développé par Nari Labs
Au lieu de générer séparément la voix de chaque locuteur comme les TTS classiques, il génère l’ensemble de la conversation en une seule fois
Démo : Hugging Face Space
Code : dépôt GitHub

Fonctionnalités principales

Génération vocale conversationnelle

Les locuteurs peuvent être indiqués dans le texte avec [S1] et [S2]
Des sons non verbaux peuvent aussi être insérés sous forme de texte, comme (laughs) ou (coughs)
Les émotions, le ton et le style de voix peuvent être définis via des prompts audio

Clonage vocal

Si un audio d’exemple et sa réplique sont fournis ensemble sous forme de texte, la fonction de clonage vocal s’active
Il est possible de l’essayer après avoir envoyé un audio sur le Hugging Face Space
Voir l’exemple détaillé dans example/voice_clone.py

Utilisation sous forme de bibliothèque

from dia.model import Dia  
model = Dia.from_pretrained("nari-labs/Dia-1.6B")  
output = model.generate(text)

Une sortie MP3 est possible avec soundfile
Un package PyPI et un outil CLI seront bientôt proposés

Installation et exécution

Méthode de lancement rapide (basée sur Gradio)

git clone https://github.com/nari-labs/dia.git  
cd dia && uv run app.py

Ou, si uv n’est pas disponible :

cd dia  
python -m venv .venv  
source .venv/bin/activate  
pip install uv  
uv run app.py

Le Descript Audio Codec est téléchargé automatiquement au lancement
À chaque exécution, la voix est générée aléatoirement ; pour de la cohérence, il faut fixer le prompt ou la seed

Performances et exigences matérielles

Environnement de test : PyTorch 2.0+, CUDA 12.6 ou supérieur
VRAM recommandée : 10 Go ou plus, avec une version quantifiée prévue prochainement
Environ 40 tokens/seconde générés sur un GPU A4000 (86 tokens = environ 1 seconde de voix)
L’utilisation de torch.compile peut améliorer la vitesse

Feuille de route et TODO

Support de Docker
Optimisation de la vitesse d’inférence
Quantification du modèle (meilleure efficacité mémoire)
Support multilingue et prise en charge d’un plus grand nombre de locuteurs à l’étude

Licence et restrictions d’usage

Licence Apache 2.0
Exemples d’usages interdits :
- Générer la voix d’autrui sans autorisation (Identity Misuse)
- Produire de la désinformation (Fake News, etc.)
- Finalités illégales ou malveillantes

Communauté et contributions

Équipe de recherche : une petite équipe composée de 1 personne à temps plein + 1 personne à temps partiel
Il est possible de partager des retours et de proposer des fonctionnalités via le serveur Discord
Un projet orienté open source qui grandit avec ses contributeurs

Références et base technique

Modèles audio : inspiré de SoundStorm, Parakeet et Descript Audio Codec
Ressources de calcul : Google TPU Research Cloud, programme Hugging Face ZeroGPU
« Nari » signifie « lys » en coréen pur

13 commentaires

reagea0 2025-04-24

Waouh, c’est vraiment excellent. À deux, cela n’a pas dû être simple pour vous d’obtenir jusqu’aux données d’entraînement, c’est impressionnant.

princox 2025-04-24

Le créateur est même venu en personne~ Il faudra que j’essaie ça moi aussi.

kleinstein 2025-04-22

Le coréen est très attendu !!

toebee 2025-04-22

Oh, j’allais justement le faire et le publier, mais vous l’avez déjà posté très rapidement. Merci.

winterjung 2025-04-22

Ah, c’était donc une création d’un Coréen ! En écoutant les comparaisons sur la page de démo, les performances ont l’air vraiment excellentes. Si on fournit un prompt audio, est-ce que le modèle s’en sert comme référence pour cette voix ? Je me demande aussi s’il faut fournir séparément chacun des exemples distingués en s1 et s2.

toebee 2025-04-22

Merci ! Il n’est pas nécessaire d’inclure dans le prompt audio un exemple séparé avec [S1] et [S2]. Vous pouvez n’inclure que [S1], ou bien [S1] et [S2] tous les deux. Il faut simplement veiller à ce que [S1] arrive toujours en premier.

xguru 2025-04-22

Comme le post a reçu beaucoup d’upvotes sur Hacker News, GN+ en a automatiquement fait un résumé. J’ai simplement ajouté un peu d’organisation de mon côté.

Je vous soutiens !!

toebee 2025-04-22

Merci :))

toebee 2025-04-22

C’est le modèle que j’ai créé, haha...

kgh1379 2025-04-22

C’est génial !! Je vais l’utiliser avec plaisir T_T/

toebee 2025-04-22

Merci :)) N'hésitez pas à laisser une étoile sur GitHub haha

kgh1379 2025-04-22

C’est fait ! J’aimerais beaucoup voir aussi bientôt des actualités en coréen !! Merci

GN⁺ 2025-04-22

Avis sur Hacker News

Admiration technique et éloges

Bien que le projet ait été réalisé par seulement deux personnes en trois mois, il affiche une qualité très élevée
Il est impressionnant de voir une petite équipe obtenir des résultats compétitifs dans le domaine des modèles audio face à de grandes entreprises
Réactions du type : « on dirait une vraie personne », « on a l’impression de voir l’avenir du TTS », « les exemples sont stupéfiants »
Plusieurs utilisateurs ont jugé particulièrement marquants les exemples audio créés à partir de scènes de The Office

Évaluation de la qualité vocale et de ses caractéristiques

La plupart des réactions sont positives : « naturel comme une voix humaine », « bonne expression des émotions », « les détails comme le rire, la toux ou les cris sont bien rendus »
Certains mentionnent aussi des défauts comme des émotions exagérées, un rendu qui fait publicité ou du bruit au début
Certains estiment également que cela rappelle un style de comédien vocal précis (par ex. le ton de NPR) ou l’ambiance des anciennes animations Flash sur YouTube

Retours sur la démo et tests directs

Des cas de réussite de l’exécution sur divers matériels, comme un MacBook M2, ont été partagés
Le fait de pouvoir l’essayer immédiatement en ligne via HuggingFace Spaces a été bien accueilli
Des retours indiquent aussi qu’il est facile à exécuter avec Docker et des conteneurs CUDA

Discussions sur les usages pour les livres audio et les romans

Plusieurs utilisateurs explorent son potentiel pour la production de livres audio, la séparation des voix par personnage et des dialogues riches en émotion
Certains restent toutefois d’avis que « les comédiens humains restent meilleurs » et qu’« un bon comédien apporte une texture propre à l’œuvre »
D’autres rétorquent que si l’IA interprète correctement les émotions et les personnages, elle pourrait au contraire faire mieux

Demandes de fonctionnalités et questions sur la synthèse vocale

Les demandes / supports suivants ont été évoqués :
- prise en charge multilingue (chinois, finnois, etc.)
- prise en charge des conversations à plus de deux personnes
- clonage vocal (sa propre voix)
- informations de timing mot par mot
- prise en charge des GPU AMD
- prise en charge de la sortie en streaming
À ce sujet, les développeurs ont indiqué que certaines fonctionnalités étaient en cours de développement ou prévues pour plus tard

Licence et open source

Le projet est distribué sous Apache 2.0, et le développeur a expliqué lui-même que la formulation d’origine (limitée à la recherche) signifiait essentiellement « ne faites pas de shady stuff »
Certains utilisateurs ont souligné qu’il faudrait clarifier cela pour éviter toute confusion

Questions sur les données d’entraînement et le processus de formation

De nombreux utilisateurs ont demandé « d’où vient le dataset ? » et « comment cela a-t-il été entraîné ? »
Les développeurs ont répondu qu’un aperçu de haut niveau serait fourni dans un rapport technique

Controverse sur le nom

Des remarques ont signalé un conflit de nom avec l’outil de diagrammes Dia de GNOME et diabrowser.com
Certains critiquent le fait que « des projets IA reprennent délibérément des noms déjà utilisés dans l’open source »
Les développeurs ont répondu qu’ils « ne le savaient pas » et qu’ils feraient en sorte de mieux distinguer le projet à l’avenir

Retours sur l’utilisabilité et pistes d’amélioration

Certains ont trouvé le site de démo, basé sur Notion, lent et peu pratique pour le partage de liens → suggestion d’une page plus légère comme GitHub Pages
Suggestions d’amélioration du README : confusion autour de « join waitlist », mention inutile de venv, etc.
Retours liés à la configuration, comme le fait que le modèle soit téléchargé à chaque fois faute de cache côté serveur

Cas de développement, d’application et d’intégration

Comparaisons avec d’autres modèles TTS comme E5-F2 et Sesame-TTS
Certains utilisateurs insistent sur la précision dans des domaines spécifiques, comme la terminologie médicale
Demandes d’informations sur les codecs pour une exécution sur iOS et évocation de possibilités d’usage
Partage d’éléments à prendre en compte pour une intégration dans un vrai service, comme le streaming et le temps de réponse initial

Divers

Partage d’informations et de correctifs concernant des erreurs de lien ou des problèmes d’accès à HuggingFace
Découverte de petites fonctionnalités annexes, comme le système de favoris dans l’interface de démo
Mention également des limites matérielles des utilisateurs, ainsi que des attentes et inquiétudes générales autour des usages du TTS

Dia - un modèle TTS à poids ouverts qui génère des conversations réalistes

Dia : un modèle de synthèse vocale centré sur le dialogue

Fonctionnalités principales

Génération vocale conversationnelle

Clonage vocal

Utilisation sous forme de bibliothèque

Installation et exécution

Méthode de lancement rapide (basée sur Gradio)

Performances et exigences matérielles

Feuille de route et TODO

Licence et restrictions d’usage

Communauté et contributions

Références et base technique

À lire aussi

13 commentaires

Avis sur Hacker News

Admiration technique et éloges

Évaluation de la qualité vocale et de ses caractéristiques

Retours sur la démo et tests directs

Discussions sur les usages pour les livres audio et les romans

Demandes de fonctionnalités et questions sur la synthèse vocale

Licence et open source

Questions sur les données d’entraînement et le processus de formation

Controverse sur le nom

Retours sur l’utilisabilité et pistes d’amélioration

Cas de développement, d’application et d’intégration

Divers