5 points par GN⁺ 2024-10-22 | 1 commentaires | Partager sur WhatsApp
  • Outil permettant de convertir des sites web en ePub
  • Extrait une liste de pages HTML depuis un site web et les compile en livre ePub pour pouvoir l’importer sur l’eReader de votre choix
  • Les utilisateurs avancés capables d’écrire du JavaScript peuvent ajouter des définitions de parseurs supplémentaires afin de personnaliser l’analyse du site

Sites pris en charge

  • Novel Update
  • Wuxia World
  • La plupart des sites de awesome-read-the-docs
  • Sites personnalisés utilisant des éléments UL/OL comme table des matières, ou des expressions régulières sur le texte des liens, ou des sélecteurs de requête
  • Applications web personnalisées utilisant des éléments de titre (en-têtes) prédéfinis et un bouton suivant cliquable

Résumé de GN⁺

  • Epublifier est un outil qui convertit le contenu de sites web au format ePub afin de le rendre facile à lire sur un eReader
  • L’outil prend notamment en charge des sites comme Novel Update et Wuxia World, et les utilisateurs avancés peuvent personnaliser l’analyse via JavaScript
  • Cet outil est utile pour les utilisateurs qui souhaitent lire du contenu web hors ligne, et Calibre propose des fonctionnalités similaires

1 commentaires

 
GN⁺ 2024-10-22
Avis Hacker News
  • Calibre prend en charge de nombreux sites
  • Cette extension cherche à expliquer ce qui la différencie des autres scrapers
    • Elle sert à générer des ePub pour des sites web où les scrapers traditionnels fonctionnent mal
    • Les scrapers en ligne de commande classiques et les autres extensions ne fonctionnent généralement que sur des sites prédéfinis
    • Ils peuvent nécessiter une configuration complexe ou du code
    • Certains sites utilisent JavaScript pour générer ou récupérer le texte de manière dynamique
    • Comme elle s’exécute dans le navigateur, elle a moins de chances d’être détectée et bloquée
    • Elle n’est pas conçue pour un usage répétitif ou des tâches en arrière-plan
    • Elle fournit une interface utilisateur pour scraper facilement sans configuration propre au site
    • Il ne faut pas s’attendre à de meilleures performances sur les sites déjà bien pris en charge par d’autres programmes/extensions
    • Elle a été créée précisément parce qu’elle n’est pas liée à un site spécifique
  • Ce qui est intéressant dans ce programme, c’est son interface pour extraire du contenu depuis des sites arbitraires
  • Ce serait formidable s’il pouvait gérer les sites où toutes les sections sont cachées derrière des accordéons
  • Je suis en train de construire quelque chose de similaire
    • Je développe un scraper web et un parseur ePub pour les blogs, romans web, etc.
    • Je développe aussi une application compagnon PWA pour la lecture hors ligne
  • Il m’arrive de vouloir obtenir les essais de Paul Graham au format ePub
  • J’ai déjà créé une version simple qui stockait des fichiers ePub sur le système de fichiers du serveur
    • Elle utilisait Postlight Parser pour fournir une vue documentaire simplifiée du site web
  • Cet outil est impressionnant
    • L’époque où je mettais en cache de nombreuses pages web pour voyager hors ligne est révolue
  • Je me demande s’il prend en charge fanfiction.net
  • J’aimerais le voir fonctionner sur des sites très riches en documentation comme AWS, VueJS, MDN, w3schools, realpython et betterstack