Guide d’utilisation de DuckDB (DuckDB Python + Jupyter Lab)
(zzsza.github.io)Voici un article qui résume l’utilisation de DuckDB, un projet open source OLAP qui suscite beaucoup d’attention ces derniers temps.
Il contient aussi des explications sur la façon de l’utiliser dans Jupyter Lab, ainsi qu’une sélection d’extensions particulièrement marquantes.
On peut interroger directement des fichiers Parquet sur S3 et les utiliser facilement ; cela semble pouvoir clairement remplacer Athena. Cela pourrait aussi remplacer tous les cas d’usage où l’on emploie Pandas.
Sommaire
- Présentation de DuckDB, qu’est-ce que DuckDB ?
- BIG DATA IS DEAD
- Objectifs de DuckDB & avantages de DuckDB
-
- Simple
-
- Portable
-
- Feature Rich
-
- Fast
-
- Extensible
-
- Free
-
- Thorough Testing
- Benchmark de performance de DuckDB
- Installation de DuckDB
-
- Exécuter DuckDB
- Exécution simple (DuckDB Python)
- Chargement des données
- Exécuter plus confortablement avec jupysql
- Syntaxe SQL
- Secrets Manager
- Extensions DuckDB
- bigquery
- h3
- pg_duckdb
- vss (Vector Similarity Search)
- Cas d’usage de DuckDB
- Exemple d’utilisation avec BigQuery
- Utilisation comme data warehouse local (remplacement de Pandas)
- Usage comme moteur d’analyse léger à la demande
- Utilisation à l’étape de transformation dans des pipelines ETL et ELT
- Interroger des fichiers Parquet sur GCS
- Conclusion
- Références
2 commentaires
Merci pour cette excellente ressource.
Merci d’avoir lu cet article !!