41 points par xguru 2025-09-24 | 1 commentaires | Partager sur WhatsApp
  • Un outil qui convertit rapidement et légèrement des sites web au format Markdown et llms.txt, afin de faciliter la génération de contexte LLM exploitable par l’IA
  • Les convertisseurs HTML→Markdown traditionnels ne sont pas conçus pour les LLM, consomment donc davantage de tokens et sont plus lents
  • Le cœur de mdream est un convertisseur HTML→Markdown optimisé pour les LLM qui produit une sortie optimisée avec environ 50 % de tokens en moins et permet une conversion ultra-rapide d’un HTML de 1,4 Mo en environ 50 ms
    • Une bibliothèque de 5 kB gzip sans dépendance externe
  • Avec le package @mdream/crawl, il est possible de crawler un site entier pour générer llms.txt, llms-full.txt et des fichiers Markdown individuels, puis de l’intégrer à des outils d’IA comme Claude Code
  • Exécutable dans divers environnements, dont CLI, Docker, GitHub Actions, Vite et Nuxt
  • Grâce à un système de plugins, il est possible d’ajouter du filtrage de contenu, des transformations de nœuds et des comportements personnalisés via des hooks dans le pipeline
    • extractionPlugin : extrait des éléments spécifiques à l’aide de sélecteurs CSS, utile pour l’analyse de données
    • filterPlugin : permet d’inclure ou d’exclure des éléments selon des sélecteurs CSS ou des ID de balises
    • frontmatterPlugin : génère un frontmatter YAML à partir des informations du head HTML (title, meta, etc.)
    • isolateMainPlugin : extrait uniquement le contenu principal à partir de l’élément <main> ou de la plage header~footer
    • tailwindPlugin : convertit les classes Tailwind CSS en mise en forme Markdown (gras, italique, etc.)
    • readabilityPlugin : évalue la lisibilité du contenu et l’extrait (fonction expérimentale)

1 commentaires

 
tensun 2025-09-24

J’ai essayé, mais il y a des erreurs et ça ne fonctionne pas correctement. J’ai publié un message dans l’issue correspondante.