Scrapegraph-ai - Web scraping avec LLM et logique de graphe directe

xguru · 2024-05-10T09:51:01+09:00

Bibliothèque Python open source de web scraping basée sur l’IA Crée des pipelines de scraping pour des sites web, des documents et des fichiers XML à l’aide de LLM et d’une logique de graphe directe Il suffit d’indiquer quelles informations extraire, et la bibliothèque s’occupe du reste Compatible avec divers modèles comme Ollama, OpenAI, Groq, Azure et Gemini Nœuds fournis Nœud de base, nœud de récupération HTML, nœud Image_to_text, nœud Text_To-Speech, nœud de recherche Internet Nœud conditionnel : détermine le nœud suivant du graphe Nœud de génération de réponse : génère une réponse à une question à l’aide d’un LLM Nœud generate_scraper : extrait les informations souhaitées du contenu selon l’entrée utilisateur Nœud Get_probable_tags : trouve les balises HTML contenant les informations recherchées dans le contenu Nœud Parse : extrait des informations d’un document HTML Nœud Rag : extrait des informations pertinentes de documents volumineux Nœud Robots : vérifie si l’accès des robots est autorisé

(github.com/VinciGit00)

20 points par xguru 2024-05-10 | 1 commentaires | Partager sur WhatsApp

Bibliothèque Python open source de web scraping basée sur l’IA
- Crée des pipelines de scraping pour des sites web, des documents et des fichiers XML à l’aide de LLM et d’une logique de graphe directe
Il suffit d’indiquer quelles informations extraire, et la bibliothèque s’occupe du reste
Compatible avec divers modèles comme Ollama, OpenAI, Groq, Azure et Gemini
Nœuds fournis
- Nœud de base, nœud de récupération HTML, nœud Image_to_text, nœud Text_To-Speech, nœud de recherche Internet
- Nœud conditionnel : détermine le nœud suivant du graphe
- Nœud de génération de réponse : génère une réponse à une question à l’aide d’un LLM
- Nœud generate_scraper : extrait les informations souhaitées du contenu selon l’entrée utilisateur
- Nœud Get_probable_tags : trouve les balises HTML contenant les informations recherchées dans le contenu
- Nœud Parse : extrait des informations d’un document HTML
- Nœud Rag : extrait des informations pertinentes de documents volumineux
- Nœud Robots : vérifie si l’accès des robots est autorisé

1 commentaires

ng0301 2024-05-13

J’ai eu le sentiment qu’il peinait à bien extraire les données des web apps en CSR, ce qui était un peu décevant.
En revanche, j’ai été très satisfait de ses performances sur le SSR.

Scrapegraph-ai - Web scraping avec LLM et logique de graphe directe

À lire aussi

1 commentaires