8 points par xguru 4 시간 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Outil open source qui crée des jeux de données structurés depuis le web en direct à partir d'une phrase unique en langage naturel, puis les met à jour automatiquement selon la fréquence définie
    • Exemple : « liste des entreprises YC qui recrutent actuellement des ingénieurs, avec leur stade d’investissement, leur localisation et le nombre d’offres publiées »
  • Inférence automatique du schéma à partir de la phrase d’entrée : noms de colonnes, types, clé primaire et même emplacement où les trouver sur le web
  • Des agents autonomes explorent le web en direct, comparent et vérifient les résultats avec les sources réelles, puis suppriment les doublons avant de les renvoyer sous forme de tableau
    • Quand l’agent orchestrateur découvre des entités, des sous-agents se répartissent le travail en parallèle pour enquêter et vérifier chaque entité
  • Les résultats peuvent être téléchargés en CSV / XLSX et explorés dans l’interface
  • En définissant une fréquence d’actualisation (30 minutes, 6 heures, 12 heures, quotidienne, hebdomadaire), les agents relancent l’exécution selon le planning pour maintenir le jeu de données à jour
  • Que l’on soit humain ou agent IA, toute interaction avec le web finit par produire des données (prix, entreprises, recrutement, recherche, disponibilité, stock, etc.)
    • Ces données sont dispersées sur plusieurs pages, et l’outil prend en charge la collecte de données croisées entre catégories que les outils classiques de scraping, les API de recherche ou les outils de LeadGen ne savent pas faire
      — plus besoin d’effectuer séparément ou de réunir à la main la recherche, l’extraction, la conception du schéma, la déduplication, la vérification et les tâches cron
  • Il est aussi possible de créer et d’exporter des jeux de données via le CLI du terminal
    • bigset create "..." --rows 30 --wait --csv
  • Cela reste toutefois au stade expérimental : l’inférence de schéma n’est pas toujours parfaite. Convient uniquement aux données publiques
  • Stack technique
    • Frontend : Next.js 16, React 19, Tailwind 4
    • Backend : Fastify, TypeScript (agent runner)
    • Authentification : authentification locale (développement), Clerk (cloud)
    • Base de données : Convex (self-hosted)
    • Collecte de données : TinyFish API (Search, Fetch, Browser)
    • Orchestration IA : workflow Mastra + Vercel AI SDK + OpenRouter → Claude Sonnet (inférence de schéma + agent de remplissage)
    • Vue tableau : TanStack Table + virtualisation react-window
    • Export : CSV (intégré) + XLSX (SheetJS, import dynamique)
    • Analyse : PostHog — événements, session replay, suivi des erreurs (optionnel)
  • Licence AGPL-3.0

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.