- Kitten TTS est un modèle TTS (text-to-speech) open source qui vise à la fois la légèreté et une haute qualité audio
- Il n’utilise que 15 millions de paramètres, pour une taille de modèle inférieure à 25 Mo
- Contrairement aux autres grands modèles TTS, son principal atout est de pouvoir fonctionner dans tous les environnements, y compris sur mobile et embarqué
- Même sans GPU, il permet une synthèse vocale de haute qualité sur tous les appareils
- Il propose différentes options de voix premium pour une synthèse vocale haute fidélité proche de la voix réelle
- L’inférence vocale est rapide, ce qui l’optimise pour la synthèse en temps réel
- Un modèle en préversion développeur est déjà disponible, et la publication progressive des poids complets du modèle entraîné, d’un SDK mobile et d’une version web est prévue par la suite
Aucun commentaire pour le moment.