56 points par xguru 2026-03-16 | 8 commentaires | Partager sur WhatsApp
  • Un parseur de contenu qui supprime les éléments inutiles d’une page web — commentaires, barres latérales, en-têtes et pieds de page — pour extraire uniquement le contenu principal en HTML/Markdown
  • Pour les vidéos YouTube, il peut aussi extraire les dialogues en les séparant par intervenant (à partir de la version 0.12.0)
  • Développé pour Obsidian Web Clipper, mais utilisable dans divers environnements comme le navigateur ou Node.js
  • Conçu comme une alternative à Mozilla Readability, avec un traitement plus flexible et une sortie plus cohérente
    • Réduit au minimum la suppression d’éléments incertains
    • Prend en charge une sortie normalisée pour les notes de bas de page, formules et blocs de code
    • Détecte les éléments inutiles grâce à l’analyse des styles mobiles
    • Extrait automatiquement davantage de métadonnées, y compris les métadonnées schema.org
  • Prend en charge une interface CLI, permettant d’analyser directement du HTML ou des URL depuis le terminal
  • Licence MIT

8 commentaires

 
xguru 2026-03-16

Defuddle - un open source HTML-to-Markdown qui remplace Readability
C’était déjà passé une fois il y a 10 mois, mais cette fois une fonctionnalité a été ajoutée pour extraire les conversations des vidéos YouTube avec séparation des intervenants.
Et entre-temps, de nombreuses fonctionnalités ont été ajoutées, comme l’extraction asynchrone des URL X, l’extraction d’articles, la prise en charge de l’application Substack, l’ajout d’un CLI et la prise en charge des URL GitHub.

 
tested 2026-03-16

J’aimerais que les liens internes de GeekNews reçoivent automatiquement leur titre...

 
xguru 2026-03-16

J’ai effectué la modification. À l’avenir, les commentaires publiés seront automatiquement convertis dans le titre.

 
tested 2026-03-16

Waouh, merci !

 
crawler 2026-03-16

Waouh, donc ça marchait directement comme ça, incroyable. Ça m’est déjà arrivé de trouver ça gênant aussi, j’aurais dû vous en parler.

 
shakespeares 2026-03-16

L’extraction en Markdown semble un peu approximative. On dirait que ça fonctionne bien seulement quand la page web est parfaitement optimisée pour le SEO. C’est bien ça ?

 
dbs0829 2026-03-16

C’est vraiment très pratique quand on l’utilise en combinaison avec Claude Code.