Abogen - Générer des livres audio à partir d’EPUB, PDF et texte

(github.com/denizsafak)

10 points par GN⁺ 2025-08-11 | 1 commentaires | Partager sur WhatsApp

Abogen est un outil open source qui convertit facilement des fichiers ePub, PDF et texte en livres audio de haute qualité
Pendant la conversion, des sous-titres synchronisés sont aussi générés automatiquement
Il propose de nombreuses fonctionnalités, comme le mixage de voix personnalisé, les formats d’encodage, le découpage en chapitres et le traitement par lots (mode file d’attente)
Il utilise le tout dernier moteur de synthèse vocale Kokoro-82M pour offrir une qualité TTS naturelle et la prise en charge multilingue
Par rapport à d’autres projets, ses atouts sont une interface graphique intuitive, la gestion de dossiers par projet et le traitement automatique des métadonnées

Présentation et importance d’Abogen

Abogen est un outil open source de synthèse vocale (TTS) qui convertit rapidement des fichiers texte (ePub, PDF, .txt, etc.) en livres audio naturels
Il offre de nombreuses fonctions, comme une interface intuitive, le traitement par lots de plusieurs fichiers, le mixage de voix personnalisé, divers formats de sortie, la gestion des chapitres et la prise en charge des métadonnées
Contrairement à d’autres projets open source, il permet d’obtenir facilement un audio de haute qualité (notamment via le TTS basé sur Kokoro-82M) et des sous-titres avec une utilisation simple
Le processus d’installation initial et la configuration complexe de l’environnement Python sont automatisés, ce qui le rend accessible même aux développeurs débutants
En particulier, la gestion des chapitres et métadonnées par projet, l’environnement GUI et la fonction de voix personnalisée sont considérés comme des avantages compétitifs dans le secteur

Résumé des principales caractéristiques

Conversion texte-vers-voix (TTS) de fichiers ePub, PDF et texte en audio en quelques secondes
Génération automatique de sous-titres synchronisés, avec prise en charge d’un alignement parfait entre audio et sous-titres
Utilisation du mixeur de voix pour combiner plusieurs modèles vocaux et créer son propre profil de voix
Fonction mode file d’attente pour traiter plusieurs fichiers par lots tout en conservant les réglages propres à chaque fichier
Génération automatique des marqueurs de chapitre et des métadonnées, avec gestion des dossiers de projet
Nombreux formats de sortie pris en charge : WAV, FLAC, MP3, OPUS, M4B, etc. ; sous-titres également disponibles en SRT/ASS, entre autres
Langues principales prises en charge : anglais américain/britannique, espagnol, français, hindi, italien, japonais, portugais, chinois, etc.
Effet de prononciation naturel et haute qualité grâce au moteur TTS Kokoro-82M
Prise en charge à la fois du mode GUI et de la ligne de commande, avec possibilité d’utiliser un conteneur Docker

Détail des fonctionnalités d’Abogen

#Démarrage et contexte d’installation

Les outils TTS existants ont souvent de nombreuses limites en matière d’installation, de configuration, de qualité, de personnalisation et de traitement multi-fichiers
Abogen a été conçu avec une interface simple mais puissante afin de rendre accessibles même aux débutants des fonctions avancées comme la conversion texte-audio, la génération de sous-titres et le mixage de voix
Il peut être utilisé sur plusieurs OS (Windows, Linux, macOS) et prend en charge la configuration automatique d’un environnement intégré/installé sans nécessiter une installation préalable de Python

#Utilisation principale

Il est possible de glisser-déposer des fichiers ePub, PDF ou texte, ou d’utiliser l’éditeur intégré
Réglages : vitesse de lecture, voix (modèle, genre, langue), style des sous-titres (par phrase, par mot), formats de sortie audio et sous-titres, chemin de sortie, etc.
Un simple clic sur le bouton de démarrage de la conversion génère immédiatement le résultat

#Démonstration réelle

Même sur un GPU modeste, il est possible de générer en 11 secondes un audio de 3 minutes 28 à partir d’un texte d’environ 3 000 caractères
La vitesse de traitement varie selon les caractéristiques du matériel

#Options de configuration

Méthodes d’entrée : glisser-déposer, éditeur intégré, gestion de file d’attente pour traiter plusieurs fichiers simultanément
Vitesse de lecture : réglage fin de 0.1x à 2.0x
Sélection et préécoute de la voix : modèles par langue et par genre, plus mixeur personnalisé pour définir son propre profil vocal
Génération de sous-titres : automatisation par phrase, par virgule ou par groupes de n mots
Sortie audio : WAV, FLAC, MP3, OPUS, M4B (avec chapitres)
Formats de sous-titres : prise en charge de la personnalisation en SRT, ASS, etc.
Gestion des chapitres et des projets : enregistrement dans un dossier de projet avec audio par chapitre, version fusionnée et métadonnées incluses
Nombreuses options d’interface : thèmes, journaux, raccourcis, etc.

#Voice Mixer

Il permet de combiner plusieurs modèles vocaux via un ajustement de pondération afin de créer, enregistrer et réutiliser une voix unique
Le résultat du mixage peut être préécouté et appliqué comme profil vocal

#Mode file d’attente

Conservation des réglages propres à chaque fichier et conversion automatique de plusieurs textes ou eBooks en une seule fois
Les paramètres de chaque fichier sont enregistrés séparément lors de son ajout à la file d’attente, indépendamment des modifications des réglages principaux

#Marqueurs de chapitre / métadonnées

Insertion automatique de balises de découpage en chapitres
- Il est aussi possible d’insérer manuellement des balises ``
- En cas d’erreur, cela facilite le retraitement rapide du seul chapitre concerné
Grâce aux balises de métadonnées, il est possible d’ajouter des informations comme le titre, l’auteur ou l’année pour les applications de livres audio
- Elles peuvent être ajoutées au début d’un fichier texte

#Langues prises en charge

Prise en charge multilingue du moteur Kokoro-82M
Anglais (US/UK), espagnol, français, hindi, italien, japonais, portugais brésilien, chinois, etc.
Pour les sous-titres dans d’autres langues, des ajouts pourront être demandés ultérieurement en raison des limites techniques du moteur

#Sortie et usages

Recommandation d’utiliser des lecteurs multimédias avancés comme MPV, avec prise en charge des sous-titres synchronisés
Prise en charge d’un déploiement serveur basé sur Docker

#Différences par rapport aux projets similaires

Abogen offre un niveau de confort très élevé grâce à une GUI autonome et des fonctions de personnalisation, la gestion de dossiers par projet, l’automatisation des chapitres et métadonnées, le traitement en file d’attente et les voix mixées
Il présente des similitudes avec audiblez, autiobooks, pdf-narrator, epub_to_audiobook et ebook2audiobook, mais se distingue par la facilité d’usage de son GUI, son moteur TTS avancé et la synchronisation chapitres/sous-titres

#Feuille de route et contribution

Ajout prévu de l’OCR (reconnaissance de documents), renforcement de la GUI multilingue, etc.
Tout le monde peut contribuer à l’open source en forkant le projet pour ajouter des fonctionnalités ou corriger des bugs

#Crédits techniques et licence

Utilisation de diverses technologies open source partenaires, dont le TTS Kokoro-82M, une GUI basée sur PyQt et l’intégration d’EbookLib
Licence MIT (usage commercial et modification autorisés), moteur Kokoro sous licence Apache-2.0

#Précautions et limites

La fonction de synchronisation des sous-titres est actuellement disponible uniquement en anglais (la prise en charge d’autres langues nécessite des évolutions du moteur Kokoro)
Certaines fonctionnalités sont limitées (par exemple la préécoute audio dans Docker)
Pour le guide détaillé d’installation et de configuration de l’environnement, consulter la documentation officielle

1 commentaires

GN⁺ 2025-08-11

Avis Hacker News

J’imagine bien un pipeline où les livres sont fournis par Calibre-Web, transformés en version audio via Abogen, puis distribués avec Audiobookshelf ; cela me semble aussi être une très bonne solution pour les personnes malvoyantes. Voir Calibre-Web et audiobookshelf
Utiliser cet outil pour transformer un livre texte en audiobook pour une consommation personnelle, c’est très bien, mais pour un auteur, s’en servir afin de produire un fichier destiné à la diffusion est très risqué. Les auteurs indépendants ont déjà énormément de mal à promouvoir leurs œuvres, et aujourd’hui, beaucoup de lecteurs potentiels se détournent dès qu’ils aperçoivent la moindre trace d’IA. De mon côté, j’ai commencé à engager des comédiens voix-off qui jouent bien mais dont l’anglais n’est pas la langue maternelle, ou qui parlent une autre langue chez eux. Je leur demande parfois de renforcer légèrement leur accent ; cela aide aussi à se distinguer de l’IA et ajoute un charme particulier au livre pour ceux qui cherchent une expérience nouvelle. J’avais été stupéfait, lors d’auditions, par l’intensité avec laquelle des comédiens originaires de la région méditerranéenne enregistraient des audiobooks.
- J’utilise souvent la fonction WhisperSync d’Amazon. Elle permet de lire un livre tout en l’écoutant en même temps. C’est vraiment pratique en déplacement, car je peux parfois vérifier visuellement un passage ou le surligner plus tard. Le seul inconvénient, c’est qu’assez peu de livres la prennent en charge, et la fonction de lecture intégrée à l’application Kindle est de qualité médiocre. Donc, personnellement, j’aimerais beaucoup avoir une option de voix IA en complément d’un excellent livre écrit par un humain.
- Je ne suis pas certain qu’il soit vraiment si courant que les lecteurs potentiels passent leur chemin dès qu’ils détectent des traces d’IA. Pour la lecture audio, tant que le résultat est bon, la plupart des gens semblent se moquer de savoir si c’est lu par une IA ou non. Les gens ne veulent pas de livres écrits par l’IA, mais ils utilisent assez volontiers depuis longtemps des voix IA pour écouter des articles ou des livres. C’est différent du jeu d’acteur ou de la direction vocale.
Je me demande s’il s’agit simplement de convertir du texte en parole, ou si cela produit réellement quelque chose qui ressemble à un vrai audiobook. Les bons audiobooks ont souvent des narrateurs qui interprètent différemment les personnages, avec des accents et des dialectes distincts. Ce genre de chose semble peut-être faisable sur quelques phrases avec un outil comme ChatGPT, mais sur un audiobook entier de 8 à 20 heures, cela paraît difficile. À l’heure actuelle, j’ai l’impression qu’il reste encore des obstacles fondamentaux pour transformer un epub en audiobook de très haut niveau. Je me demande si quelque chose m’échappe.
- Elevenlabs dispose d’une fonction de génération de style « full cast » qui attribue différentes voix à différents personnages. En revanche, le système n’est pas automatiquement sensible aux dialectes. Les systèmes actuels permettent bien, selon le contexte ou le prompt, de modifier l’accent ou le ton, mais je ne sais pas à quel point c’est fiable.
- On peut aussi utiliser le mixeur pour mélanger diverses voix de personnages et obtenir plusieurs rendus. Il est également possible d’assigner soi-même dans le code des voix différentes selon les personnages.
- En réalité, je n’aime pas trop les interprétations avec plusieurs voix de personnages. Lire des citations avec un ton et une intonation adaptés au contexte, oui, mais donner une voix différente à chaque personnage, je n’aime pas ça.
Cet outil nécessite pip au lancement de l’application abogen, donc il faut l’exécuter dans un environnement où pip est disponible. On peut démarrer avec la commande uv tool run abogen, mais cela bloque à l’étape d’installation du modèle. Avec uv venv && uv pip install pip && source .venv/bin/activate && abogen, j’ai confirmé que cela fonctionne correctement. L’interface graphique packagée est soignée, l’UI pour choisir des pages ou des sections dans un PDF est bonne, et sur mon portable équipé d’une GTX 1650, c’est rapide. Le résultat sort en audio .ogg et en sous-titres .ass, et en les ouvrant avec mpv, on peut écouter et lire en même temps dans le terminal. Un seul regret : les retours à la ligne du PDF d’origine sont conservés, ce qui crée parfois de longues coupures au milieu des phrases et gêne la compréhension. Activer l’option qui ignore les single newline améliore clairement le résultat.
- Avec une RTX 4060, j’ai converti un livre de 110 pages en wav en environ une heure. Sans l’option pour ignorer les retours à la ligne, le résultat n’était pas terrible. Avec cette option activée, c’est vraiment impressionnant. J’aime beaucoup la voix af_heart, alors que af_jessica me gêne un peu. Le plus grand problème des audiobooks, c’est que l’appréciation de la voix du narrateur compte presque autant que le contenu du livre lui-même. Je sentais que ce jour finirait par arriver, et c’est réellement fascinant. Je suis tellement habitué aux audiobooks qu’il m’est difficile de lire entièrement un vrai livre. Le fait de pouvoir convertir facilement avec cette fonction une vingtaine de livres sans potentiel commercial — qui ne seraient donc jamais lus par un narrateur humain — dans une voix que j’aime, c’est vraiment remarquable.
J’adore les audiobooks, mais je suis difficile sur la narration. J’ai déjà abandonné beaucoup d’audiobooks en cours de route simplement parce que la voix ne me convenait pas. Il faudra sans doute encore beaucoup de temps avant qu’un tel service me soit vraiment utile.
- Il m’est déjà arrivé d’acheter et d’écouter toute une série grâce à un bon narrateur. Par exemple, c’était le cas avec Grim Noir Chronicles ou les œuvres full cast de Soundbooth Theater. Si l’on veut simplement transformer du texte en vibrations sonores, la technologie TTS est déjà suffisante, mais je pense que la narration IA n’offre toujours pas l’expérience qu’un narrateur humain peut apporter.
- Moi aussi, j’ai déjà abandonné des audiobooks à cause du narrateur, mais à l’inverse, je me dis qu’une voix IA neutre et correcte pourrait peut-être me permettre de finir des livres que j’avais eu du mal à écouter auparavant. J’espère presque qu’une voix IA propre pourrait être une meilleure option qu’une narration officielle à la voix maladroite.
- Il m’est aussi arrivé d’abandonner complètement une série quand la narration de R. C. Bray a soudainement été remplacée par un autre narrateur, ce qui l’a rendue bien plus difficile à écouter. À l’inverse, il y a des narrateurs comme Wil Wheaton que je recherche volontairement. Au final, dans un audiobook, le narrateur peut soit sublimer l’œuvre, soit la gâcher.
- Quel est ton audiobook préféré ?
Cela ne semble pas très bien adapté aux livres qui contiennent, en plus du texte, du code, des schémas ou des images, ce qui est assez évident. Je me demande aussi s’il existe un réseau neuronal open source capable de prendre une page PDF et de la convertir en version « prose pure », par exemple en transformant une page mêlant image et texte en une description textuelle incluant aussi le contenu ou la description de l’image.
J’ai essayé Kokoro TTS sur des formats courts comme des blogs ou des articles, mais je n’ai pas été convaincu. En ce moment, Gemini 2.5 Flash TTS est nettement meilleur et son quota gratuit est généreux (10 minutes par génération, 90 minutes par jour). Sur des textes courts, les problèmes de cohérence de la voix se remarquent peu, mais sur quelque chose d’aussi long qu’un livre entier, cela devient clairement un vrai problème.
- Kokoro n’est pas mauvais comme TTS, mais il manque d’expression émotionnelle. Vu la taille du modèle, c’est peut-être inévitable.
J’ai essayé cet outil pour transformer des livres de philosophie en audiobooks afin d’améliorer leur accessibilité, mais j’ai rencontré un problème important. Si les phrases envoyées à Kokoro sont trop longues, les derniers mots ou segments de phrase sont sautés ou deviennent flous. Abogen découpe bien le texte par phrase avant de l’envoyer, mais si une phrase est longue, elle est transmise telle quelle à Kokoro, ce qui rend l’audiobook inutilisable en pratique. Du coup, je suis en train de développer ma propre application tkinter qui segmente plus finement avec nltk et des expressions régulières.
- J’utilise avec satisfaction le CLI « kokoro-tts », dont la fonction de découpage/segmentation est meilleure kokoro-tts. Cet outil génère aussi des fichiers audio et des métadonnées par chapitre. On peut ensuite concaténer les fichiers audio et ajouter les informations de chapitre avec m4b-tool m4b-tool. J’ai très envie d’écrire un billet sur cette façon de travailler, c’est vraiment utile.
- Ces temps-ci, ce qui me frustre avec les TTS de deep learning, c’est que les sorties sont trop non déterministes. Les approches plus classiques donnent au moins une prononciation prévisible, ce qui me semble parfois préférable.
Personnellement, j’espère voir arriver une solution capable de transformer un PDF en ePub bien structuré.
J’ai utilisé Kokoro TTS avec audiblez en CLI. Le modèle est petit, mais rapide, et la qualité audio m’a impressionné. Cela dit, il y a quelques limites : a) il ne distingue pas le point final d’une phrase du point dans des abréviations comme « Mr. » ou « Mrs. », ce qui crée des pauses maladroites ; b) il gère mal les points de suspension (...) ; c) la prononciation d’un mot reste toujours la même, même quand le contexte change.
- Une possibilité est d’utiliser les balises phonème SSML ; certains TTS les prennent en charge. Un prétraitement avec un LLM puissant peut aussi permettre d’éviter ce genre de problème.
- Des cas comme le problème de Mr. / Mrs. semblent assez faciles à corriger ; je pense qu’on peut au moins éliminer une partie des cas les plus courants.

Abogen - Générer des livres audio à partir d’EPUB, PDF et texte

Présentation et importance d’Abogen

Résumé des principales caractéristiques

Détail des fonctionnalités d’Abogen

#Démarrage et contexte d’installation

#Utilisation principale

#Démonstration réelle

#Options de configuration

#Voice Mixer

#Mode file d’attente

#Marqueurs de chapitre / métadonnées

#Langues prises en charge

#Sortie et usages

#Différences par rapport aux projets similaires

#Feuille de route et contribution

#Crédits techniques et licence

#Précautions et limites

À lire aussi

1 commentaires

Avis Hacker News