En développant un outil qui convertit des pages web en Markdown, il y a des interrogations sur la gestion de la charge et la pérennité d’un service gratuit
Lors de la conversion d’une page web en Markdown, les problèmes importants sont les suivants :
un scraping exhaustif du contenu de la page (rappel élevé)
la suppression des publicités et du contenu auxiliaire (précision élevée)
l’extraction correcte de la mise en page et des types de sections (formatage)
Les outils open source existants (Trafilatura, Newspaper4k, python-readability, etc.) montrent déjà un niveau de performance correct. On se demande quels pourraient être les points de différenciation ou d’amélioration
Pour les sites qui affichent un message de cookies, il arrive que seul le contenu lié aux cookies soit parsé au lieu du vrai contenu (ex. : cnbc.com)
L’idée d’utiliser GPT pour le téléchargement et le filtrage d’images est intéressante
Présentation d’outils similaires :
url2text.com : permet aussi d’extraire du HTML rendu en JS, des métadonnées, des captures d’écran, etc.
firecrawl.dev : propose non seulement l’exploration d’une page unique, mais aussi celle d’un site entier
substack-ai.vercel.app : spécialisé dans l’extraction de contenu de newsletters Substack
content-parser.com : prend en charge divers formats comme Markdown, HTML, texte et PDF
Il est aussi possible d’obtenir des fonctionnalités similaires avec un convertisseur de documents générique comme pandoc
La plupart des outils sont développés en s’appuyant sur le projet readability de Mozilla
1 commentaires
Avis Hacker News
En résumé, voici les points principaux :
Trafilatura,Newspaper4k,python-readability, etc.) montrent déjà un niveau de performance correct. On se demande quels pourraient être les points de différenciation ou d’améliorationcnbc.com)url2text.com: permet aussi d’extraire du HTML rendu en JS, des métadonnées, des captures d’écran, etc.firecrawl.dev: propose non seulement l’exploration d’une page unique, mais aussi celle d’un site entiersubstack-ai.vercel.app: spécialisé dans l’extraction de contenu de newsletters Substackcontent-parser.com: prend en charge divers formats comme Markdown, HTML, texte et PDFpandocreadabilityde Mozilla