VoxCPM2 - synthèse vocale open source multilingue avec clonage de voix proche d’une voix réelle

(github.com/OpenBMB)

43 points par xguru 15 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Prend en charge 30 langues, dont le coréen ; il suffit d’entrer le texte sans balise de langue pour lancer immédiatement la synthèse
Sans échantillon de comédien vocal, il suffit de préfixer le texte avec une description en langage naturel comme (Young female voice, warm and gentle) (sexe, âge, ton, émotion, vitesse) pour générer instantanément le personnage vocal souhaité
Système TTS basé sur un modèle diffusion autoregressive qui génère directement des représentations vocales continues sans passer par une tokenisation discrète ; le modèle de 2B paramètres a été entraîné sur plus de 2 millions d’heures de données multilingues
Prend en charge le Controllable Voice Cloning, qui permet de cloner le timbre à partir d’un court clip de référence tout en ajustant séparément l’émotion, la vitesse et le style (slightly faster, cheerful tone)
Mode Ultimate Cloning : en fournissant à la fois l’audio de référence et sa transcription, il reproduit entièrement le timbre, le rythme, l’émotion et le style, sans post-traitement supplémentaire
Même avec une entrée de référence en 16kHz, il génère directement une sortie 48kHz de qualité studio via l’encodage/décodage asymétrique AudioVAE V2. Pas besoin d’upsampler externe ni de pipeline de post-traitement
Sur RTX 4090, le RTF (Real-Time Factor) est d’environ 0,3, et d’environ 0,13 avec l’accélération Nano-vLLM, ce qui permet un usage en streaming temps réel
Fonctionne avec environ 8 Go de VRAM, ce qui le rend exploitable sur des GPU de la gamme RTX 3070 à 4060
Sur Seed-TTS-eval, il figure parmi les meilleurs modèles open source en similarité locuteur (SIM), avec un taux d’erreur moyen de 1,68 % sur un benchmark ASR interne couvrant 30 langues
Avec seulement 5 à 10 minutes d’audio, une adaptation à un locuteur ou à un domaine spécifique est possible via le fine-tuning LoRA ; l’entraînement et l’inférence via WebUI sont aussi pris en charge avec lora_ft_webui.py
Basé sur le backbone MiniCPM-4, avec un pipeline en 4 étapes : LocEnc → TSLM → RALM → LocDiT
Nombreuses options d’inférence sans GPU : inférence CPU GGML/GGUF (VoxCPM.cpp), conversion ONNX, backend Apple Neural Engine, réimplémentation Rust, nœuds ComfyUI, etc.
Sous licence Apache-2.0, sans restriction d’usage commercial, implémentation Python

VoxCPM2 - synthèse vocale open source multilingue avec clonage de voix proche d’une voix réelle

À lire aussi

Aucun commentaire pour le moment.