MimikaStudio - clonage vocal et TTS open source pour Mac

xguru · 2026-03-19T09:31:02+09:00

Offre intégrée de clonage vocal, synthèse vocale à partir de texte, lecture de documents à voix haute et création de livres audio Implémente des performances natives sur macOS grâce à l’accélération Metal basée sur MLX (prise en charge de Windows prévue) Intègre les moteurs Qwen3-TTS et Chatterbox, capables de cloner une voix à partir d’un échantillon de 3 secondes Prise en charge du clonage vocal multilingue (23 langues, dont le coréen) et de l’expression des émotions Inclut des modèles récents de synthèse vocale comme Kokoro TTS, Supertonic-2 et CosyVoice3 ONNX Fonction lecteur de documents : prise en charge de la lecture phrase par phrase des fichiers PDF, DOCX, EPUB, Markdown et TXT Générateur de livres audio : conversion de documents complets aux formats WAV/MP3/M4B, gestion de file d’attente par chapitre, suivi de progression et réutilisation de préréglages vocaux Fonctionne comme un Agentic Voice Cloning Server et prend en charge le traitement parallèle via une orchestration avancée des files de tâches Fournit UI, API et CLI, permettant l’automatisation locale et l’intégration externe, avec un serveur MCP intégré Dispose d’une bibliothèque vocale partagée permettant de réutiliser les voix importées dans tous les moteurs Gestionnaire de modèles intégré : téléchargement des modèles HuggingFace et vérification de leur état Prend en charge l’intégration multi-LLM (Claude, OpenAI, Ollama, etc.) Base de code d’environ 18 600 lignes, composée d’un backend FastAPI et d’une interface desktop Flutter Environ 8 500 lignes pour le backend Python, environ 10 100 lignes pour l’interface Dart Binaire réservé à macOS fourni ; sous Windows/Linux, seule la compatibilité du code est assurée (builds prévus ultérieurement) Code source publié sous Business Source License 1.1 (BSL-1.1), avec une licence de distribution distincte pour les binaires

Offre intégrée de clonage vocal, synthèse vocale à partir de texte, lecture de documents à voix haute et création de livres audio
Implémente des performances natives sur macOS grâce à l’accélération Metal basée sur MLX (prise en charge de Windows prévue)
Intègre les moteurs Qwen3-TTS et Chatterbox, capables de cloner une voix à partir d’un échantillon de 3 secondes
- Prise en charge du clonage vocal multilingue (23 langues, dont le coréen) et de l’expression des émotions
Inclut des modèles récents de synthèse vocale comme Kokoro TTS, Supertonic-2 et CosyVoice3 ONNX
Fonction lecteur de documents : prise en charge de la lecture phrase par phrase des fichiers PDF, DOCX, EPUB, Markdown et TXT
Générateur de livres audio : conversion de documents complets aux formats WAV/MP3/M4B, gestion de file d’attente par chapitre, suivi de progression et réutilisation de préréglages vocaux
Fonctionne comme un Agentic Voice Cloning Server et prend en charge le traitement parallèle via une orchestration avancée des files de tâches
Fournit UI, API et CLI, permettant l’automatisation locale et l’intégration externe, avec un serveur MCP intégré
Dispose d’une bibliothèque vocale partagée permettant de réutiliser les voix importées dans tous les moteurs
Gestionnaire de modèles intégré : téléchargement des modèles HuggingFace et vérification de leur état
Prend en charge l’intégration multi-LLM (Claude, OpenAI, Ollama, etc.)
Base de code d’environ 18 600 lignes, composée d’un backend FastAPI et d’une interface desktop Flutter
- Environ 8 500 lignes pour le backend Python, environ 10 100 lignes pour l’interface Dart
Binaire réservé à macOS fourni ; sous Windows/Linux, seule la compatibilité du code est assurée (builds prévus ultérieurement)
Code source publié sous Business Source License 1.1 (BSL-1.1), avec une licence de distribution distincte pour les binaires

MimikaStudio - clonage vocal et TTS open source pour Mac

À lire aussi

2 commentaires