Koheesio - le framework open source de Nike pour créer des pipelines de données

xguru · 2024-06-05T09:37:10+09:00

Un framework Python pour créer efficacement des pipelines de données Favorise la modularité et la collaboration afin de construire des pipelines complexes à partir de composants simples et réutilisables Conçu pour fonctionner de manière fluide avec plusieurs bibliothèques ou frameworks de traitement de données Utilise Pydantic pour offrir une vérification de types robuste, la validation des données et la gestion de la configuration Garantit une exécution prévisible des pipelines grâce à un code bien testé et à un ensemble de fonctionnalités riche Ce qui différencie Koheesio des autres bibliothèques Conçu spécifiquement pour les pipelines de données, l’intégration PySpark, la transformation de données, les tâches ETL, la validation des données et le traitement de données à grande échelle Fournit des fonctionnalités de Reader, Writer et Transformation pour tous types de tâches de traitement de données Encourage la collaboration et l’innovation au sein de la communauté du data engineering Composants clés de Koheesio Step : unité de travail de base de Koheesio, représentant une tâche unique dans un pipeline de données. Reçoit des entrées et produit des sorties Context : classe de configuration qui définit l’environnement des tâches. Permet de partager des variables entre les tâches et d’ajuster leur comportement selon l’environnement Logger : classe qui enregistre des messages à différents niveaux

Un framework Python pour créer efficacement des pipelines de données
Favorise la modularité et la collaboration afin de construire des pipelines complexes à partir de composants simples et réutilisables
Conçu pour fonctionner de manière fluide avec plusieurs bibliothèques ou frameworks de traitement de données
Utilise Pydantic pour offrir une vérification de types robuste, la validation des données et la gestion de la configuration
Garantit une exécution prévisible des pipelines grâce à un code bien testé et à un ensemble de fonctionnalités riche

Ce qui différencie Koheesio des autres bibliothèques

Conçu spécifiquement pour les pipelines de données, l’intégration PySpark, la transformation de données, les tâches ETL, la validation des données et le traitement de données à grande échelle
Fournit des fonctionnalités de Reader, Writer et Transformation pour tous types de tâches de traitement de données
Encourage la collaboration et l’innovation au sein de la communauté du data engineering

Composants clés de Koheesio

Step : unité de travail de base de Koheesio, représentant une tâche unique dans un pipeline de données. Reçoit des entrées et produit des sorties
Context : classe de configuration qui définit l’environnement des tâches. Permet de partager des variables entre les tâches et d’ajuster leur comportement selon l’environnement
Logger : classe qui enregistre des messages à différents niveaux

1 commentaires

xguru 2024-06-06

Avis Hacker News

Je me demande à quoi ressemble réellement l’ingénierie des données chez Nike. Je reçois souvent des propositions de contrats mal payés à cause de mon profil LinkedIn. Ces postes visent des personnes expérimentées basées aux États-Unis, mais la rémunération est faible. Il est aussi possible que ces offres soient des arnaques.
Cet outil peut être utile dans des environnements où il y a beaucoup de développeurs peu expérimentés. Deux ou trois développeurs construisent l’outil, puis une équipe plus large exécute des tâches ETL simples. L’équipe en charge de l’outil doit supporter la charge liée aux nouvelles exigences.
Un typage fort nuit aux problèmes d’ingénierie des données. Les langages dynamiques aident à réduire la complexité du code et la maintenance. Insister sur des frameworks typés relève davantage d’une expérience académique que d’une expérience industrielle.
J’ai travaillé avec ETL, Spark, Storm, etc., mais je ne comprends pas la proposition de valeur de cette bibliothèque. Je ne suis pas spécialiste en ingénierie des données, mais j’espérais y voir une utilité.
Il faudrait une meilleure explication de ce qu’est cet outil et des raisons de l’utiliser. Voir ce lien.
J’ai écrit un pipeline de données avec Apache Beam il y a quelques semaines. Koheesio partage certaines fonctionnalités, mais Apache Beam est meilleur.
Ça ressemble à Luigi. Bien !
Je recommande de jeter un œil à CloudQuery. C’est un framework ELT basé sur Arrow. (auteur)
Koheesio affirme ne pas être en concurrence avec d’autres bibliothèques, mais en pratique si. L’orchestration de workflows est une catégorie mature. Le fait d’utiliser Python n’est pas un avantage majeur.
Je me demande si vous avez regardé la bibliothèque dlt. Elle fournit un EL facile à utiliser en Python. Je suis curieux des différences entre Koheesio et dlt, ainsi que de leur éventuelle complémentarité.