- Bibliothèque Python open source de web scraping basée sur l’IA
- Crée des pipelines de scraping pour des sites web, des documents et des fichiers XML à l’aide de LLM et d’une logique de graphe directe
- Il suffit d’indiquer quelles informations extraire, et la bibliothèque s’occupe du reste
- Compatible avec divers modèles comme Ollama, OpenAI, Groq, Azure et Gemini
- Nœuds fournis
- Nœud de base, nœud de récupération HTML, nœud
Image_to_text, nœud Text_To-Speech, nœud de recherche Internet
- Nœud conditionnel : détermine le nœud suivant du graphe
- Nœud de génération de réponse : génère une réponse à une question à l’aide d’un LLM
- Nœud
generate_scraper : extrait les informations souhaitées du contenu selon l’entrée utilisateur
- Nœud
Get_probable_tags : trouve les balises HTML contenant les informations recherchées dans le contenu
- Nœud
Parse : extrait des informations d’un document HTML
- Nœud
Rag : extrait des informations pertinentes de documents volumineux
- Nœud
Robots : vérifie si l’accès des robots est autorisé
1 commentaires
J’ai eu le sentiment qu’il peinait à bien extraire les données des web apps en CSR, ce qui était un peu décevant.
En revanche, j’ai été très satisfait de ses performances sur le SSR.