- Offre intégrée de clonage vocal, synthèse vocale à partir de texte, lecture de documents à voix haute et création de livres audio
- Implémente des performances natives sur macOS grâce à l’accélération Metal basée sur MLX (prise en charge de Windows prévue)
- Intègre les moteurs Qwen3-TTS et Chatterbox, capables de cloner une voix à partir d’un échantillon de 3 secondes
- Prise en charge du clonage vocal multilingue (23 langues, dont le coréen) et de l’expression des émotions
- Inclut des modèles récents de synthèse vocale comme Kokoro TTS, Supertonic-2 et CosyVoice3 ONNX
- Fonction lecteur de documents : prise en charge de la lecture phrase par phrase des fichiers PDF, DOCX, EPUB, Markdown et TXT
- Générateur de livres audio : conversion de documents complets aux formats WAV/MP3/M4B, gestion de file d’attente par chapitre, suivi de progression et réutilisation de préréglages vocaux
- Fonctionne comme un Agentic Voice Cloning Server et prend en charge le traitement parallèle via une orchestration avancée des files de tâches
- Fournit UI, API et CLI, permettant l’automatisation locale et l’intégration externe, avec un serveur MCP intégré
- Dispose d’une bibliothèque vocale partagée permettant de réutiliser les voix importées dans tous les moteurs
- Gestionnaire de modèles intégré : téléchargement des modèles HuggingFace et vérification de leur état
- Prend en charge l’intégration multi-LLM (Claude, OpenAI, Ollama, etc.)
- Base de code d’environ 18 600 lignes, composée d’un backend FastAPI et d’une interface desktop Flutter
- Environ 8 500 lignes pour le backend Python, environ 10 100 lignes pour l’interface Dart
- Binaire réservé à macOS fourni ; sous Windows/Linux, seule la compatibilité du code est assurée (builds prévus ultérieurement)
- Code source publié sous Business Source License 1.1 (BSL-1.1), avec une licence de distribution distincte pour les binaires
Aucun commentaire pour le moment.