Guide d’utilisation de DuckDB (DuckDB Python + Jupyter Lab)

(zzsza.github.io)

24 points par zzsza 2024-10-27 | 2 commentaires | Partager sur WhatsApp

Voici un article qui résume l’utilisation de DuckDB, un projet open source OLAP qui suscite beaucoup d’attention ces derniers temps.

Il contient aussi des explications sur la façon de l’utiliser dans Jupyter Lab, ainsi qu’une sélection d’extensions particulièrement marquantes.

On peut interroger directement des fichiers Parquet sur S3 et les utiliser facilement ; cela semble pouvoir clairement remplacer Athena. Cela pourrait aussi remplacer tous les cas d’usage où l’on emploie Pandas.

Sommaire

Présentation de DuckDB, qu’est-ce que DuckDB ?
- BIG DATA IS DEAD
Objectifs de DuckDB & avantages de DuckDB
- 1. Simple
- 1. Portable
- 1. Feature Rich
- 1. Fast
- 1. Extensible
- 1. Free
- 1. Thorough Testing
- Benchmark de performance de DuckDB
- Installation de DuckDB
Exécuter DuckDB
- Exécution simple (DuckDB Python)
- Chargement des données
- Exécuter plus confortablement avec jupysql
- Syntaxe SQL
- Secrets Manager
Extensions DuckDB
- bigquery
- h3
- pg_duckdb
- vss (Vector Similarity Search)
Cas d’usage de DuckDB
- Exemple d’utilisation avec BigQuery
- Utilisation comme data warehouse local (remplacement de Pandas)
- Usage comme moteur d’analyse léger à la demande
- Utilisation à l’étape de transformation dans des pipelines ETL et ELT
- Interroger des fichiers Parquet sur GCS
Conclusion
Références

2 commentaires

nottiger 2024-10-28

Merci pour cette excellente ressource.

zzsza 2024-10-31

Merci d’avoir lu cet article !!

Guide d’utilisation de DuckDB (DuckDB Python + Jupyter Lab)

À lire aussi

2 commentaires