42 points par xguru 2026-03-19 | 2 commentaires | Partager sur WhatsApp
  • Offre intégrée de clonage vocal, synthèse vocale à partir de texte, lecture de documents à voix haute et création de livres audio
  • Implémente des performances natives sur macOS grâce à l’accélération Metal basée sur MLX (prise en charge de Windows prévue)
  • Intègre les moteurs Qwen3-TTS et Chatterbox, capables de cloner une voix à partir d’un échantillon de 3 secondes
    • Prise en charge du clonage vocal multilingue (23 langues, dont le coréen) et de l’expression des émotions
  • Inclut des modèles récents de synthèse vocale comme Kokoro TTS, Supertonic-2 et CosyVoice3 ONNX
  • Fonction lecteur de documents : prise en charge de la lecture phrase par phrase des fichiers PDF, DOCX, EPUB, Markdown et TXT
  • Générateur de livres audio : conversion de documents complets aux formats WAV/MP3/M4B, gestion de file d’attente par chapitre, suivi de progression et réutilisation de préréglages vocaux
  • Fonctionne comme un Agentic Voice Cloning Server et prend en charge le traitement parallèle via une orchestration avancée des files de tâches
  • Fournit UI, API et CLI, permettant l’automatisation locale et l’intégration externe, avec un serveur MCP intégré
  • Dispose d’une bibliothèque vocale partagée permettant de réutiliser les voix importées dans tous les moteurs
  • Gestionnaire de modèles intégré : téléchargement des modèles HuggingFace et vérification de leur état
  • Prend en charge l’intégration multi-LLM (Claude, OpenAI, Ollama, etc.)
  • Base de code d’environ 18 600 lignes, composée d’un backend FastAPI et d’une interface desktop Flutter
    • Environ 8 500 lignes pour le backend Python, environ 10 100 lignes pour l’interface Dart
  • Binaire réservé à macOS fourni ; sous Windows/Linux, seule la compatibilité du code est assurée (builds prévus ultérieurement)
  • Code source publié sous Business Source License 1.1 (BSL-1.1), avec une licence de distribution distincte pour les binaires

2 commentaires

 
neocode24 2026-03-19

C’est la version GUI de mlx-audio ? La qualité est clairement au rendez-vous.

 
jhk0530 2026-03-19

Je l’ai essayé, c’est vraiment incroyable.