14 points par xguru 2022-06-22 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Un format de fichier basé sur SQLite conçu pour faciliter l’interrogation en SQL des données issues du crawl web
  • Possibilité d’importer des fichiers standard Web ARChive (.warc), utilisés notamment par wget et WebRecorder, en .warcdb
  • Utilise directement la commande sqlite-utils
wget --warc-file tselai "https://tselai.com";  
warcdb import archive.warcdb tselai.warc.gz  
  
// Récupérer tous les en-têtes de réponse   
sqlite3 archive.warcdb <<SQL  
select  json_extract(h.value, '$.header') as header,   
        json_extract(h.value, '$.value') as value  
from response,  
     json_each(http_headers) h  
SQL  

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.