24 points par GN⁺ 2025-01-16 | 3 commentaires | Partager sur WhatsApp
  • Kokoro v0.19 est un modèle de synthèse vocale récemment annoncé, doté de 82M de paramètres et offrant une sortie de très haute qualité
    • Sous licence Apache, il a été entraîné avec moins de 100 heures d’audio
    • Il prend en charge l’anglais américain, l’anglais britannique, le français, le coréen, le japonais et le chinois, et propose diverses voix de haute qualité
  • Utilisation de Kokoro

    • Les utilisateurs peuvent exploiter Kokoro via un outil appelé Audiblez, qui permet de convertir des livres électroniques en livres audio.
    • Audiblez analyse les fichiers .epub et transforme le contenu du livre en fichiers audio bien enregistrés.
    • Par exemple, sur un MacBook Pro M2, la conversion d’un livre d’environ 100 000 mots prend environ 2 heures.
  • Installation et exécution

    • Audiblez peut être installé via pip sur un ordinateur disposant de Python 3.
    • Il ne fonctionne pas avec Python 3.13.
    • Il faut télécharger environ 360 Mo de fichiers supplémentaires.
    • Pour convertir un fichier .epub en livre audio, il faut exécuter une commande.
  • Langues et voix prises en charge

    • L’option -l permet de spécifier la langue, et les codes de langue pris en charge sont en-us, en-gb, fr-fr, ja, ko et cmn.
    • L’option -v permet de sélectionner une voix, avec plusieurs voix disponibles.
  • Détection des chapitres

    • La détection des chapitres est un peu instable, mais elle permet de trouver les chapitres principaux dans la plupart des fichiers .epub.
    • Si le chapitre qui vous intéresse n’est pas inclus, vous pouvez essayer d’ajuster la fonction is_chapter dans le code.
  • Code source et pistes d’amélioration

    • Le projet Audiblez est disponible sur GitHub.
    • Les améliorations prévues incluent une meilleure détection des chapitres, l’ajout de la navigation entre chapitres et l’ajout d’une narration pour les images.

3 commentaires

 
crawler 2025-01-16

Il existe des modèles plus grands et meilleurs que celui-ci, mais je pense qu’il faut considérer que leur usage est différent.
Kokoro est très apprécié parce qu’il est petit, donc rapide, et que sa qualité n’est pas mauvaise non plus.

 
munggo 2025-01-16

La version coréenne sonne comme du russe. C’est à un niveau inaudible.

 
GN⁺ 2025-01-16
Avis Hacker News
  • Le narrateur d’un livre audio peut parfois très bien interpréter le texte, ce qui me laisse des sentiments mitigés vis-à-vis de l’usage des voix IA

    • Les livres audio avec plusieurs narrateurs et des voix différentes pour chaque personnage offrent une expérience particulière
    • Il arrive que le seul indice permettant de savoir qui parle dans un dialogue soit un changement de ton de la voix
    • Je préfère les voix IA aux ebooks amateurs ou aux livres audio du domaine public comme ceux de Project Gutenberg
  • Les voix générées par IA sont difficiles à écouter plus d’une minute, et si j’en entends une sur YouTube, je passe immédiatement

    • C’est peut-être parce que notre cerveau essaie de percevoir les émotions du locuteur, ses pauses, ses sourires invisibles, etc.
    • Les modèles vont s’améliorer au point qu’il deviendra difficile d’identifier une voix générée par IA
  • Demande de recommandations d’options open source pour générer du TTS avec une voix personnalisée

    • Prévoit d’essayer Coqui TTS
  • Je voudrais une liseuse capable de basculer entre texte et audio avec un seul bouton

    • J’imagine pouvoir lire un livre sur le canapé, puis passer en mode audio en faisant la vaisselle
  • Quelqu’un a l’idée de transformer un ebook en livre audio avec la voix d’un narrateur de livres audio en particulier

    • Inspiré par le projet Infinite Conversation, mais sans encore l’avoir mis en œuvre
  • A essayé divers modèles TTS, mais la plupart étaient moyens, ne fonctionnaient pas sur Mac ou étaient très lents

    • Ce modèle-ci est rapide, facile à installer et offre une voix correcte
    • Je ne lis pas les livres qui n’ont pas de version audio
    • A déjà utilisé elevenlabs par le passé, mais le prix est trop élevé pour un usage personnel
  • En 2025, il sera probablement possible de générer avec des réseaux neuronaux des livres audio avec musique de fond, effets sonores et narration dramatique

  • « kokoro » signifie « cœur » en japonais

  • Souhaite qu’un plugin soit ajouté au logiciel de gestion d’ebooks Calibre pour convertir facilement en version audio les titres sélectionnés d’une bibliothèque epub

  • Très satisfait de l’ajout d’un argument de vitesse variable