Bruin - un open source de pipeline de données unifié écrit en Go

xguru · 2024-12-27T09:49:01+09:00

Framework unifié permettant de construire des flux de bout en bout en collectant des données depuis diverses sources, en les transformant avec SQL et Python, et en ajoutant des contrôles de qualité des données Comparable à une implémentation réunissant dbt + Airbyte + Great Expectations en un seul outil Composé d’une CLI écrite en Go et d’une extension pour VS Code qui s’y intègre. Création, gestion et déploiement des pipelines possibles directement dans VS Code Collecte des données avec ingestr ingestr est une CLI open source distincte, écrite en Python, qui facilite la copie entre sources de données Pris en charge : AWS Athena, Databricks, DuckDB, Google BigQuery, Microsoft SQL Server, Postgres, Redshift, Snowflake, Synapse, Pager Transformation des données avec SQL et Python (similaire à dbt) Gestion de l’environnement Python avec uv. Exécution en environnement isolé Contrôles de qualité des données intégrés Prise en charge des templates Jinja Support du dry-run pour valider le pipeline du début à la fin Exécutable sur machine locale, instances EC2 et GitHub Actions Injection de secrets via des variables d’environnement Prise en charge de diverses stratégies de matérialisation pour tables/vues, y compris les tables incrémentales

(github.com/bruin-data)

12 points par xguru 2024-12-27 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Framework unifié permettant de construire des flux de bout en bout en collectant des données depuis diverses sources, en les transformant avec SQL et Python, et en ajoutant des contrôles de qualité des données
- Comparable à une implémentation réunissant dbt + Airbyte + Great Expectations en un seul outil
Composé d’une CLI écrite en Go et d’une extension pour VS Code qui s’y intègre. Création, gestion et déploiement des pipelines possibles directement dans VS Code
Collecte des données avec ingestr
- ingestr est une CLI open source distincte, écrite en Python, qui facilite la copie entre sources de données
- Pris en charge : AWS Athena, Databricks, DuckDB, Google BigQuery, Microsoft SQL Server, Postgres, Redshift, Snowflake, Synapse, Pager
Transformation des données avec SQL et Python (similaire à dbt)
Gestion de l’environnement Python avec uv. Exécution en environnement isolé
Contrôles de qualité des données intégrés
Prise en charge des templates Jinja
Support du dry-run pour valider le pipeline du début à la fin
Exécutable sur machine locale, instances EC2 et GitHub Actions
Injection de secrets via des variables d’environnement
Prise en charge de diverses stratégies de matérialisation pour tables/vues, y compris les tables incrémentales

Bruin - un open source de pipeline de données unifié écrit en Go

À lire aussi

Aucun commentaire pour le moment.