43 points par xguru 15 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Prend en charge 30 langues, dont le coréen ; il suffit d’entrer le texte sans balise de langue pour lancer immédiatement la synthèse
  • Sans échantillon de comédien vocal, il suffit de préfixer le texte avec une description en langage naturel comme (Young female voice, warm and gentle) (sexe, âge, ton, émotion, vitesse) pour générer instantanément le personnage vocal souhaité
  • Système TTS basé sur un modèle diffusion autoregressive qui génère directement des représentations vocales continues sans passer par une tokenisation discrète ; le modèle de 2B paramètres a été entraîné sur plus de 2 millions d’heures de données multilingues
  • Prend en charge le Controllable Voice Cloning, qui permet de cloner le timbre à partir d’un court clip de référence tout en ajustant séparément l’émotion, la vitesse et le style (slightly faster, cheerful tone)
  • Mode Ultimate Cloning : en fournissant à la fois l’audio de référence et sa transcription, il reproduit entièrement le timbre, le rythme, l’émotion et le style, sans post-traitement supplémentaire
  • Même avec une entrée de référence en 16kHz, il génère directement une sortie 48kHz de qualité studio via l’encodage/décodage asymétrique AudioVAE V2. Pas besoin d’upsampler externe ni de pipeline de post-traitement
  • Sur RTX 4090, le RTF (Real-Time Factor) est d’environ 0,3, et d’environ 0,13 avec l’accélération Nano-vLLM, ce qui permet un usage en streaming temps réel
  • Fonctionne avec environ 8 Go de VRAM, ce qui le rend exploitable sur des GPU de la gamme RTX 3070 à 4060
  • Sur Seed-TTS-eval, il figure parmi les meilleurs modèles open source en similarité locuteur (SIM), avec un taux d’erreur moyen de 1,68 % sur un benchmark ASR interne couvrant 30 langues
  • Avec seulement 5 à 10 minutes d’audio, une adaptation à un locuteur ou à un domaine spécifique est possible via le fine-tuning LoRA ; l’entraînement et l’inférence via WebUI sont aussi pris en charge avec lora_ft_webui.py
  • Basé sur le backbone MiniCPM-4, avec un pipeline en 4 étapes : LocEnc → TSLM → RALM → LocDiT
  • Nombreuses options d’inférence sans GPU : inférence CPU GGML/GGUF (VoxCPM.cpp), conversion ONNX, backend Apple Neural Engine, réimplémentation Rust, nœuds ComfyUI, etc.
  • Sous licence Apache-2.0, sans restriction d’usage commercial, implémentation Python

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.