bigset - Et si vous aviez toutes les données du monde ?

xguru · 2026-06-23T09:31:01+09:00

Outil open source qui crée des jeux de données structurés depuis le web en direct à partir d'une phrase unique en langage naturel, puis les met à jour automatiquement selon la fréquence définie Exemple : « liste des entreprises YC qui recrutent actuellement des ingénieurs, avec leur stade d’investissement, leur localisation et le nombre d’offres publiées » Inférence automatique du schéma à partir de la phrase d’entrée : noms de colonnes, types, clé primaire et même emplacement où les trouver sur le web Des agents autonomes explorent le web en direct, comparent et vérifient les résultats avec les sources réelles, puis suppriment les doublons avant de les renvoyer sous forme de tableau Quand l’agent orchestrateur découvre des entités, des sous-agents se répartissent le travail en parallèle pour enquêter et vérifier chaque entité Les résultats peuvent être téléchargés en CSV / XLSX et explorés dans l’interface En définissant une fréquence d’actualisation (30 minutes, 6 heures, 12 heures, quotidienne, hebdomadaire), les agents relancent l’exécution selon le planning pour maintenir le jeu de données à jour Que l’on soit humain ou agent IA, toute interaction avec le web finit par produire des données (prix, entreprises, recrutement, recherche, disponibilité, stock, etc.) Ces données sont dispersées sur plusieurs pages, et l’outil prend en charge la collecte de données croisées entre catégories que les outils classiques de scraping, les API de recherche ou les outils de LeadGen ne savent pas faire — plus besoin d’effectuer séparément ou de réunir à la main la recherche, l’extraction, la conception du schéma, la déduplication, la vérification et les tâches cron Il est aussi possible de créer et d’exporter des jeux de données via le CLI du terminal bigset create "..." --rows 30 --wait --csv Cela reste toutefois au stade expérimental : l’inférence de schéma n’est pas toujours parfaite. Convient uniquement aux données publiques Stack technique Frontend : Next.js 16, React 19, Tailwind 4 Backend : Fastify, TypeScript (agent runner) Authentification : authentification locale (développement), Clerk (cloud) Base de données : Convex (self-hosted) Collecte de données : TinyFish API (Search, Fetch, Browser) Orchestration IA : workflow Mastra + Vercel AI SDK + OpenRouter → Claude Sonnet (inférence de schéma + agent de remplissage) Vue tableau : TanStack Table + virtualisation react-window Export : CSV (intégré) + XLSX (SheetJS, import dynamique) Analyse : PostHog — événements, session replay, suivi des erreurs (optionnel) Licence AGPL-3.0

(github.com/tinyfish-io)

8 points par xguru 4 시간 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Outil open source qui crée des jeux de données structurés depuis le web en direct à partir d'une phrase unique en langage naturel, puis les met à jour automatiquement selon la fréquence définie
- Exemple : « liste des entreprises YC qui recrutent actuellement des ingénieurs, avec leur stade d’investissement, leur localisation et le nombre d’offres publiées »
Inférence automatique du schéma à partir de la phrase d’entrée : noms de colonnes, types, clé primaire et même emplacement où les trouver sur le web
Des agents autonomes explorent le web en direct, comparent et vérifient les résultats avec les sources réelles, puis suppriment les doublons avant de les renvoyer sous forme de tableau
- Quand l’agent orchestrateur découvre des entités, des sous-agents se répartissent le travail en parallèle pour enquêter et vérifier chaque entité
Les résultats peuvent être téléchargés en CSV / XLSX et explorés dans l’interface
En définissant une fréquence d’actualisation (30 minutes, 6 heures, 12 heures, quotidienne, hebdomadaire), les agents relancent l’exécution selon le planning pour maintenir le jeu de données à jour
Que l’on soit humain ou agent IA, toute interaction avec le web finit par produire des données (prix, entreprises, recrutement, recherche, disponibilité, stock, etc.)
- Ces données sont dispersées sur plusieurs pages, et l’outil prend en charge la collecte de données croisées entre catégories que les outils classiques de scraping, les API de recherche ou les outils de LeadGen ne savent pas faire
  — plus besoin d’effectuer séparément ou de réunir à la main la recherche, l’extraction, la conception du schéma, la déduplication, la vérification et les tâches cron
Il est aussi possible de créer et d’exporter des jeux de données via le CLI du terminal
- bigset create "..." --rows 30 --wait --csv
Cela reste toutefois au stade expérimental : l’inférence de schéma n’est pas toujours parfaite. Convient uniquement aux données publiques
Stack technique
- Frontend : Next.js 16, React 19, Tailwind 4
- Backend : Fastify, TypeScript (agent runner)
- Authentification : authentification locale (développement), Clerk (cloud)
- Base de données : Convex (self-hosted)
- Collecte de données : TinyFish API (Search, Fetch, Browser)
- Orchestration IA : workflow Mastra + Vercel AI SDK + OpenRouter → Claude Sonnet (inférence de schéma + agent de remplissage)
- Vue tableau : TanStack Table + virtualisation react-window
- Export : CSV (intégré) + XLSX (SheetJS, import dynamique)
- Analyse : PostHog — événements, session replay, suivi des erreurs (optionnel)
Licence AGPL-3.0

bigset - Et si vous aviez toutes les données du monde ?

À lire aussi

Aucun commentaire pour le moment.