Firecrawl - un outil qui rend un site web entier exploitable par les LLM
(github.com/mendableai)- Crawl un site web et le convertit en Markdown ou en données structurées utilisables par les LLM
- En envoyant une URL via l'API, il explore toutes les sous-pages et fournit des données propres pour chacune d'elles
- SDK disponibles pour Python, Node, Go et Rust
- Intégration prise en charge avec LangChain, Llama Index, Dify, Langflow et Zapier
2 commentaires
Il ne prend pas en charge le crawl des sous-pages, mais je vous présente un convertisseur de formats de documents visant un objectif similaire.
https://github.com/DS4SD/docling
Ça ne marche pas très bien comme on le souhaite.