8 points par xguru 2022-06-30 | 1 commentaires | Partager sur WhatsApp
  • Convertit les fichiers Web ARChive (.warc) au format Apache Parquet orienté colonnes
  • Permet de charger les fichiers Parquet dans DuckDB pour les interroger facilement
  • Open source en Rust

1 commentaires

 
xguru 2022-06-30

DuckDB - base de données OLAP embarquée open source

Ça ressemble à WarcDB - données de crawl web sous forme de base SQLite, publié il y a quelque temps.
En revanche, dans les environnements qui utilisent déjà une infrastructure basée sur Parquet, cela semble plus pratique à exploiter.