DataJourney - Kit d’outillage open source de gestion des données en approche Design-First

xguru · 2024-12-25T10:39:01+09:00

Offre une approche structurée qui exploite les points forts des technologies open source pour permettre aux équipes de gérer et d’exploiter leurs données de manière efficace Met l’accent sur la scalabilité et la reproductibilité, en détaillant les étapes essentielles à la construction de workflows de données Prend en charge de manière structurée la définition d’objectifs, le choix d’outils, les tests de workflow et la personnalisation Design flexible et modulaire, ajustable en fonction des besoins des utilisateurs Philosophie de conception : structure par couches PO (base) : rôle de hub statique, à l’image de GitHub P1 (outils) : outils divers propulsés par l’open source P2 (maintenance et surveillance) : gestion de l’environnement et de l’automatisation (Pixi et GHA) P3 (abstraction) : couche CLI/gestionnaire de tâches pour l’interaction utilisateur (Pixi) Workflows actuellement pris en charge Implémentation des principes de conception d’un framework de packaging Python Configuration de GitHub Actions Configuration de Vale.sh au niveau des PR Configuration du linting/formatting de code via les pre-commit hooks Gestion d’environnement avec Pixi Lecture de sources de données en ligne avec Intake Mise en place d’un pipeline d’exemple avec Dagster Construction de tableaux de bord avec Holoviews + Panel Analyse exploratoire de données (EDA) avec Mito Construction d’une UI web basée sur Flask Extension et restructuration de l’UI web avec FastHTML Réalisation d’analyses de données via les modèles IA de GitHub (GitHub AI models Beta)

Offre une approche structurée qui exploite les points forts des technologies open source pour permettre aux équipes de gérer et d’exploiter leurs données de manière efficace
Met l’accent sur la scalabilité et la reproductibilité, en détaillant les étapes essentielles à la construction de workflows de données
Prend en charge de manière structurée la définition d’objectifs, le choix d’outils, les tests de workflow et la personnalisation
Design flexible et modulaire, ajustable en fonction des besoins des utilisateurs

Philosophie de conception : structure par couches

PO (base) : rôle de hub statique, à l’image de GitHub
P1 (outils) : outils divers propulsés par l’open source
P2 (maintenance et surveillance) : gestion de l’environnement et de l’automatisation (Pixi et GHA)
P3 (abstraction) : couche CLI/gestionnaire de tâches pour l’interaction utilisateur (Pixi)

Workflows actuellement pris en charge

Implémentation des principes de conception d’un framework de packaging Python
Configuration de GitHub Actions
Configuration de Vale.sh au niveau des PR
Configuration du linting/formatting de code via les pre-commit hooks
Gestion d’environnement avec Pixi
Lecture de sources de données en ligne avec Intake
Mise en place d’un pipeline d’exemple avec Dagster
Construction de tableaux de bord avec Holoviews + Panel
Analyse exploratoire de données (EDA) avec Mito
Construction d’une UI web basée sur Flask
Extension et restructuration de l’UI web avec FastHTML
Réalisation d’analyses de données via les modèles IA de GitHub (GitHub AI models Beta)

DataJourney - Kit d’outillage open source de gestion des données en approche Design-First

Philosophie de conception : structure par couches

Workflows actuellement pris en charge

À lire aussi

Aucun commentaire pour le moment.