Il s’agit d’un serveur d’API Rust qui scrape des pages web et extrait des données structurées à l’aide d’un LLM.
Fonctionnalités principales :
- Prise en charge du rendu JavaScript basé sur Headless Chrome
- Analyse immédiate des résultats de scraping via l’intégration de l’API Gemini
- Réponses structurées basées sur JSON Schema
- Traitement simultané de 50 requêtes grâce au pooling d’onglets
- Fonctions de sécurité intégrées, comme la prévention SSRF et la comparaison des clés API en temps constant
Exemple d’utilisation :
Envoyez une URL et un prompt d’analyse à POST /scrape,
et le contenu de la page ainsi que le résultat de l’analyse du LLM sont renvoyés en JSON.
Ce projet a été conçu comme une alternative auto-hébergée à des services comme JinaAI ou Firecrawl.
Si vous avez seulement besoin de scraping, vous pouvez aussi l’utiliser sans LLM.
Aucun commentaire pour le moment.