- Kokoro v0.19 est un modèle de synthèse vocale récemment annoncé, doté de 82M de paramètres et offrant une sortie de très haute qualité
- Sous licence Apache, il a été entraîné avec moins de 100 heures d’audio
- Il prend en charge l’anglais américain, l’anglais britannique, le français, le coréen, le japonais et le chinois, et propose diverses voix de haute qualité
-
Utilisation de Kokoro
- Les utilisateurs peuvent exploiter Kokoro via un outil appelé Audiblez, qui permet de convertir des livres électroniques en livres audio.
- Audiblez analyse les fichiers
.epub et transforme le contenu du livre en fichiers audio bien enregistrés.
- Par exemple, sur un MacBook Pro M2, la conversion d’un livre d’environ 100 000 mots prend environ 2 heures.
-
Installation et exécution
- Audiblez peut être installé via pip sur un ordinateur disposant de Python 3.
- Il ne fonctionne pas avec Python 3.13.
- Il faut télécharger environ 360 Mo de fichiers supplémentaires.
- Pour convertir un fichier
.epub en livre audio, il faut exécuter une commande.
-
Langues et voix prises en charge
- L’option
-l permet de spécifier la langue, et les codes de langue pris en charge sont en-us, en-gb, fr-fr, ja, ko et cmn.
- L’option
-v permet de sélectionner une voix, avec plusieurs voix disponibles.
-
Détection des chapitres
- La détection des chapitres est un peu instable, mais elle permet de trouver les chapitres principaux dans la plupart des fichiers
.epub.
- Si le chapitre qui vous intéresse n’est pas inclus, vous pouvez essayer d’ajuster la fonction
is_chapter dans le code.
-
Code source et pistes d’amélioration
- Le projet Audiblez est disponible sur GitHub.
- Les améliorations prévues incluent une meilleure détection des chapitres, l’ajout de la navigation entre chapitres et l’ajout d’une narration pour les images.
3 commentaires
Il existe des modèles plus grands et meilleurs que celui-ci, mais je pense qu’il faut considérer que leur usage est différent.
Kokoro est très apprécié parce qu’il est petit, donc rapide, et que sa qualité n’est pas mauvaise non plus.
La version coréenne sonne comme du russe. C’est à un niveau inaudible.
Avis Hacker News
Le narrateur d’un livre audio peut parfois très bien interpréter le texte, ce qui me laisse des sentiments mitigés vis-à-vis de l’usage des voix IA
Les voix générées par IA sont difficiles à écouter plus d’une minute, et si j’en entends une sur YouTube, je passe immédiatement
Demande de recommandations d’options open source pour générer du TTS avec une voix personnalisée
Je voudrais une liseuse capable de basculer entre texte et audio avec un seul bouton
Quelqu’un a l’idée de transformer un ebook en livre audio avec la voix d’un narrateur de livres audio en particulier
A essayé divers modèles TTS, mais la plupart étaient moyens, ne fonctionnaient pas sur Mac ou étaient très lents
En 2025, il sera probablement possible de générer avec des réseaux neuronaux des livres audio avec musique de fond, effets sonores et narration dramatique
« kokoro » signifie « cœur » en japonais
Souhaite qu’un plugin soit ajouté au logiciel de gestion d’ebooks Calibre pour convertir facilement en version audio les titres sélectionnés d’une bibliothèque epub
Très satisfait de l’ajout d’un argument de vitesse variable