20 points par xguru 2024-05-10 | 1 commentaires | Partager sur WhatsApp
  • Bibliothèque Python open source de web scraping basée sur l’IA
    • Crée des pipelines de scraping pour des sites web, des documents et des fichiers XML à l’aide de LLM et d’une logique de graphe directe
  • Il suffit d’indiquer quelles informations extraire, et la bibliothèque s’occupe du reste
  • Compatible avec divers modèles comme Ollama, OpenAI, Groq, Azure et Gemini
  • Nœuds fournis
    • Nœud de base, nœud de récupération HTML, nœud Image_to_text, nœud Text_To-Speech, nœud de recherche Internet
    • Nœud conditionnel : détermine le nœud suivant du graphe
    • Nœud de génération de réponse : génère une réponse à une question à l’aide d’un LLM
    • Nœud generate_scraper : extrait les informations souhaitées du contenu selon l’entrée utilisateur
    • Nœud Get_probable_tags : trouve les balises HTML contenant les informations recherchées dans le contenu
    • Nœud Parse : extrait des informations d’un document HTML
    • Nœud Rag : extrait des informations pertinentes de documents volumineux
    • Nœud Robots : vérifie si l’accès des robots est autorisé

1 commentaires

 
ng0301 2024-05-13

J’ai eu le sentiment qu’il peinait à bien extraire les données des web apps en CSR, ce qui était un peu décevant.
En revanche, j’ai été très satisfait de ses performances sur le SSR.