- Un outil qui convertit rapidement et légèrement des sites web au format Markdown et llms.txt, afin de faciliter la génération de contexte LLM exploitable par l’IA
- Les convertisseurs HTML→Markdown traditionnels ne sont pas conçus pour les LLM, consomment donc davantage de tokens et sont plus lents
- Le cœur de
mdream est un convertisseur HTML→Markdown optimisé pour les LLM qui produit une sortie optimisée avec environ 50 % de tokens en moins et permet une conversion ultra-rapide d’un HTML de 1,4 Mo en environ 50 ms
- Une bibliothèque de 5 kB gzip sans dépendance externe
- Avec le package
@mdream/crawl, il est possible de crawler un site entier pour générer llms.txt, llms-full.txt et des fichiers Markdown individuels, puis de l’intégrer à des outils d’IA comme Claude Code
- Exécutable dans divers environnements, dont CLI, Docker, GitHub Actions, Vite et Nuxt
- Grâce à un système de plugins, il est possible d’ajouter du filtrage de contenu, des transformations de nœuds et des comportements personnalisés via des hooks dans le pipeline
- extractionPlugin : extrait des éléments spécifiques à l’aide de sélecteurs CSS, utile pour l’analyse de données
- filterPlugin : permet d’inclure ou d’exclure des éléments selon des sélecteurs CSS ou des ID de balises
- frontmatterPlugin : génère un frontmatter YAML à partir des informations du
head HTML (title, meta, etc.)
- isolateMainPlugin : extrait uniquement le contenu principal à partir de l’élément
<main> ou de la plage header~footer
- tailwindPlugin : convertit les classes Tailwind CSS en mise en forme Markdown (gras, italique, etc.)
- readabilityPlugin : évalue la lisibilité du contenu et l’extrait (fonction expérimentale)
1 commentaires
J’ai essayé, mais il y a des erreurs et ça ne fonctionne pas correctement. J’ai publié un message dans l’issue correspondante.