- Un format de fichier basé sur SQLite conçu pour faciliter l’interrogation en SQL des données issues du crawl web
- Possibilité d’importer des fichiers standard Web ARChive (
.warc), utilisés notamment par wget et WebRecorder, en .warcdb
- Utilise directement la commande
sqlite-utils
wget --warc-file tselai "https://tselai.com"
warcdb import archive.warcdb tselai.warc.gz
// Récupérer tous les en-têtes de réponse
sqlite3 archive.warcdb <<SQL
select json_extract(h.value, '$.header') as header,
json_extract(h.value, '$.value') as value
from response,
json_each(http_headers) h
SQL
Aucun commentaire pour le moment.