41 points par GN⁺ 2025-04-22 | 13 commentaires | Partager sur WhatsApp
  • Dia est un modèle TTS de 1,6B de paramètres qui génère des voix de dialogue de haute qualité à partir de répliques textuelles, avec contrôle des émotions et du ton via des prompts audio
  • Développé par Nari Labs, où « Nari » signifie « lys » en coréen pur
  • Il permet de désigner les locuteurs avec [S1], [S2] et de générer aussi des expressions non verbales comme (laughs) ou (coughs), tout en prenant en charge un clonage vocal simple
  • Exécutable directement sur Hugging Face, avec test dans le navigateur sans installation séparée et prise en charge de ZeroGPU
  • L’anglais uniquement est pris en charge pour le moment, avec un besoin de plus de 10 Go de VRAM, et des modèles quantifiés ainsi qu’un support multilingue sont prévus

Dia : un modèle de synthèse vocale centré sur le dialogue

  • Dia est un modèle TTS à poids ouverts de 1,6B de paramètres développé par Nari Labs
  • Au lieu de générer séparément la voix de chaque locuteur comme les TTS classiques, il génère l’ensemble de la conversation en une seule fois
  • Démo : Hugging Face Space
  • Code : dépôt GitHub

Fonctionnalités principales

Génération vocale conversationnelle

  • Les locuteurs peuvent être indiqués dans le texte avec [S1] et [S2]
  • Des sons non verbaux peuvent aussi être insérés sous forme de texte, comme (laughs) ou (coughs)
  • Les émotions, le ton et le style de voix peuvent être définis via des prompts audio

Clonage vocal

  • Si un audio d’exemple et sa réplique sont fournis ensemble sous forme de texte, la fonction de clonage vocal s’active
  • Il est possible de l’essayer après avoir envoyé un audio sur le Hugging Face Space
  • Voir l’exemple détaillé dans example/voice_clone.py

Utilisation sous forme de bibliothèque

from dia.model import Dia  
model = Dia.from_pretrained("nari-labs/Dia-1.6B")  
output = model.generate(text)  
  • Une sortie MP3 est possible avec soundfile
  • Un package PyPI et un outil CLI seront bientôt proposés

Installation et exécution

Méthode de lancement rapide (basée sur Gradio)

git clone https://github.com/nari-labs/dia.git  
cd dia && uv run app.py  

Ou, si uv n’est pas disponible :

cd dia  
python -m venv .venv  
source .venv/bin/activate  
pip install uv  
uv run app.py  
  • Le Descript Audio Codec est téléchargé automatiquement au lancement
  • À chaque exécution, la voix est générée aléatoirement ; pour de la cohérence, il faut fixer le prompt ou la seed

Performances et exigences matérielles

  • Environnement de test : PyTorch 2.0+, CUDA 12.6 ou supérieur
  • VRAM recommandée : 10 Go ou plus, avec une version quantifiée prévue prochainement
  • Environ 40 tokens/seconde générés sur un GPU A4000 (86 tokens = environ 1 seconde de voix)
  • L’utilisation de torch.compile peut améliorer la vitesse

Feuille de route et TODO

  • Support de Docker
  • Optimisation de la vitesse d’inférence
  • Quantification du modèle (meilleure efficacité mémoire)
  • Support multilingue et prise en charge d’un plus grand nombre de locuteurs à l’étude

Licence et restrictions d’usage

  • Licence Apache 2.0
  • Exemples d’usages interdits :
    • Générer la voix d’autrui sans autorisation (Identity Misuse)
    • Produire de la désinformation (Fake News, etc.)
    • Finalités illégales ou malveillantes

Communauté et contributions

  • Équipe de recherche : une petite équipe composée de 1 personne à temps plein + 1 personne à temps partiel
  • Il est possible de partager des retours et de proposer des fonctionnalités via le serveur Discord
  • Un projet orienté open source qui grandit avec ses contributeurs

Références et base technique

  • Modèles audio : inspiré de SoundStorm, Parakeet et Descript Audio Codec
  • Ressources de calcul : Google TPU Research Cloud, programme Hugging Face ZeroGPU
  • « Nari » signifie « lys » en coréen pur

13 commentaires

 
reagea0 2025-04-24

Waouh, c’est vraiment excellent. À deux, cela n’a pas dû être simple pour vous d’obtenir jusqu’aux données d’entraînement, c’est impressionnant.

 
princox 2025-04-24

Le créateur est même venu en personne~ Il faudra que j’essaie ça moi aussi.

 
kleinstein 2025-04-22

Le coréen est très attendu !!

 
toebee 2025-04-22

Oh, j’allais justement le faire et le publier, mais vous l’avez déjà posté très rapidement. Merci.

 
winterjung 2025-04-22

Ah, c’était donc une création d’un Coréen ! En écoutant les comparaisons sur la page de démo, les performances ont l’air vraiment excellentes. Si on fournit un prompt audio, est-ce que le modèle s’en sert comme référence pour cette voix ? Je me demande aussi s’il faut fournir séparément chacun des exemples distingués en s1 et s2.

 
toebee 2025-04-22

Merci ! Il n’est pas nécessaire d’inclure dans le prompt audio un exemple séparé avec [S1] et [S2]. Vous pouvez n’inclure que [S1], ou bien [S1] et [S2] tous les deux. Il faut simplement veiller à ce que [S1] arrive toujours en premier.

 
xguru 2025-04-22

Comme le post a reçu beaucoup d’upvotes sur Hacker News, GN+ en a automatiquement fait un résumé. J’ai simplement ajouté un peu d’organisation de mon côté.

Je vous soutiens !!

 
toebee 2025-04-22

Merci :))

 
toebee 2025-04-22

C’est le modèle que j’ai créé, haha...

 
kgh1379 2025-04-22

C’est génial !! Je vais l’utiliser avec plaisir T_T/

 
toebee 2025-04-22

Merci :)) N'hésitez pas à laisser une étoile sur GitHub haha

 
kgh1379 2025-04-22

C’est fait ! J’aimerais beaucoup voir aussi bientôt des actualités en coréen !! Merci

 
GN⁺ 2025-04-22
Avis sur Hacker News

Admiration technique et éloges

  • Bien que le projet ait été réalisé par seulement deux personnes en trois mois, il affiche une qualité très élevée
  • Il est impressionnant de voir une petite équipe obtenir des résultats compétitifs dans le domaine des modèles audio face à de grandes entreprises
  • Réactions du type : « on dirait une vraie personne », « on a l’impression de voir l’avenir du TTS », « les exemples sont stupéfiants »
  • Plusieurs utilisateurs ont jugé particulièrement marquants les exemples audio créés à partir de scènes de The Office

Évaluation de la qualité vocale et de ses caractéristiques

  • La plupart des réactions sont positives : « naturel comme une voix humaine », « bonne expression des émotions », « les détails comme le rire, la toux ou les cris sont bien rendus »
  • Certains mentionnent aussi des défauts comme des émotions exagérées, un rendu qui fait publicité ou du bruit au début
  • Certains estiment également que cela rappelle un style de comédien vocal précis (par ex. le ton de NPR) ou l’ambiance des anciennes animations Flash sur YouTube

Retours sur la démo et tests directs

  • Des cas de réussite de l’exécution sur divers matériels, comme un MacBook M2, ont été partagés
  • Le fait de pouvoir l’essayer immédiatement en ligne via HuggingFace Spaces a été bien accueilli
  • Des retours indiquent aussi qu’il est facile à exécuter avec Docker et des conteneurs CUDA

Discussions sur les usages pour les livres audio et les romans

  • Plusieurs utilisateurs explorent son potentiel pour la production de livres audio, la séparation des voix par personnage et des dialogues riches en émotion
  • Certains restent toutefois d’avis que « les comédiens humains restent meilleurs » et qu’« un bon comédien apporte une texture propre à l’œuvre »
  • D’autres rétorquent que si l’IA interprète correctement les émotions et les personnages, elle pourrait au contraire faire mieux

Demandes de fonctionnalités et questions sur la synthèse vocale

  • Les demandes / supports suivants ont été évoqués :
    • prise en charge multilingue (chinois, finnois, etc.)
    • prise en charge des conversations à plus de deux personnes
    • clonage vocal (sa propre voix)
    • informations de timing mot par mot
    • prise en charge des GPU AMD
    • prise en charge de la sortie en streaming
  • À ce sujet, les développeurs ont indiqué que certaines fonctionnalités étaient en cours de développement ou prévues pour plus tard

Licence et open source

  • Le projet est distribué sous Apache 2.0, et le développeur a expliqué lui-même que la formulation d’origine (limitée à la recherche) signifiait essentiellement « ne faites pas de shady stuff »
  • Certains utilisateurs ont souligné qu’il faudrait clarifier cela pour éviter toute confusion

Questions sur les données d’entraînement et le processus de formation

  • De nombreux utilisateurs ont demandé « d’où vient le dataset ? » et « comment cela a-t-il été entraîné ? »
  • Les développeurs ont répondu qu’un aperçu de haut niveau serait fourni dans un rapport technique

Controverse sur le nom

  • Des remarques ont signalé un conflit de nom avec l’outil de diagrammes Dia de GNOME et diabrowser.com
  • Certains critiquent le fait que « des projets IA reprennent délibérément des noms déjà utilisés dans l’open source »
  • Les développeurs ont répondu qu’ils « ne le savaient pas » et qu’ils feraient en sorte de mieux distinguer le projet à l’avenir

Retours sur l’utilisabilité et pistes d’amélioration

  • Certains ont trouvé le site de démo, basé sur Notion, lent et peu pratique pour le partage de liens → suggestion d’une page plus légère comme GitHub Pages
  • Suggestions d’amélioration du README : confusion autour de « join waitlist », mention inutile de venv, etc.
  • Retours liés à la configuration, comme le fait que le modèle soit téléchargé à chaque fois faute de cache côté serveur

Cas de développement, d’application et d’intégration

  • Comparaisons avec d’autres modèles TTS comme E5-F2 et Sesame-TTS
  • Certains utilisateurs insistent sur la précision dans des domaines spécifiques, comme la terminologie médicale
  • Demandes d’informations sur les codecs pour une exécution sur iOS et évocation de possibilités d’usage
  • Partage d’éléments à prendre en compte pour une intégration dans un vrai service, comme le streaming et le temps de réponse initial

Divers

  • Partage d’informations et de correctifs concernant des erreurs de lien ou des problèmes d’accès à HuggingFace
  • Découverte de petites fonctionnalités annexes, comme le système de favoris dans l’interface de démo
  • Mention également des limites matérielles des utilisateurs, ainsi que des attentes et inquiétudes générales autour des usages du TTS