1 commentaires

 
GN⁺ 2024-04-15
Avis Hacker News

En résumé, voici les points principaux :

  • En développant un outil qui convertit des pages web en Markdown, il y a des interrogations sur la gestion de la charge et la pérennité d’un service gratuit
  • Lors de la conversion d’une page web en Markdown, les problèmes importants sont les suivants :
    1. un scraping exhaustif du contenu de la page (rappel élevé)
    2. la suppression des publicités et du contenu auxiliaire (précision élevée)
    3. l’extraction correcte de la mise en page et des types de sections (formatage)
  • Les outils open source existants (Trafilatura, Newspaper4k, python-readability, etc.) montrent déjà un niveau de performance correct. On se demande quels pourraient être les points de différenciation ou d’amélioration
  • Pour les sites qui affichent un message de cookies, il arrive que seul le contenu lié aux cookies soit parsé au lieu du vrai contenu (ex. : cnbc.com)
  • L’idée d’utiliser GPT pour le téléchargement et le filtrage d’images est intéressante
  • Présentation d’outils similaires :
    • url2text.com : permet aussi d’extraire du HTML rendu en JS, des métadonnées, des captures d’écran, etc.
    • firecrawl.dev : propose non seulement l’exploration d’une page unique, mais aussi celle d’un site entier
    • substack-ai.vercel.app : spécialisé dans l’extraction de contenu de newsletters Substack
    • content-parser.com : prend en charge divers formats comme Markdown, HTML, texte et PDF
  • Il est aussi possible d’obtenir des fonctionnalités similaires avec un convertisseur de documents générique comme pandoc
  • La plupart des outils sont développés en s’appuyant sur le projet readability de Mozilla