warc-parquet - CLI pour convertir des WARC en Parquet
(github.com/maxcountryman)- Convertit les fichiers Web ARChive (
.warc) au format Apache Parquet orienté colonnes - Permet de charger les fichiers Parquet dans DuckDB pour les interroger facilement
- Open source en Rust
1 commentaires
DuckDB - base de données OLAP embarquée open source
Ça ressemble à WarcDB - données de crawl web sous forme de base SQLite, publié il y a quelque temps.
En revanche, dans les environnements qui utilisent déjà une infrastructure basée sur Parquet, cela semble plus pratique à exploiter.