Les 5 tendances data de 2021
(towardsdatascience.com)-
Intégration du data lake et du data warehouse, le Data Lakehouse
-
La « stack data moderne » s’impose dans le courant dominant : intégration des principaux outils basés sur le cloud
→ Data Ingestion : Fivetran, Stitch, Hevodata
→ Data Warehouse : Snowflake, BigQuery
→ Data Lake : Amazon S3
→ Data Lake Processing : Presto, Dremio, Databricks, Starburst
→ Data Transformation : dbt, Matillion
→ Metadata Management : Atlan
→ BI Tools : Looker
- Metadata 3.0 : renaissance de la gestion des métadonnées
→ Les outils pour gérer la data discovery, le data catalog, la data lineage, l’observability, etc. vont monter en puissance
- Émergence de nouveaux métiers
→ Data Platform Leader : un responsable qui aide l’organisation à appliquer la plateforme data dans les activités métier
→ Analytics Engineer : avec l’apparition d’outils comme dbt, il devient possible d’avoir des ingénieurs analytics capables non seulement d’analyser, mais aussi de manipuler la stack data
- Montée en puissance des frameworks de qualité des données
→ Data profiling : examiner les données, vérifier leur qualité et identifier leurs usages futurs
→ Définition de règles de qualité des données centrées sur le métier
→ Introduction de tests de qualité dans les pipelines de données : Amazon Deequ, Great Expectations
2 commentaires
Pour le point 2, « la stack de données moderne », vous pouvez consulter la série « Comprendre l’infrastructure de données moderne » sur la chaîne YouTube de GeekNews ;)
https://youtube.com/playlist/?list=PLL-_zEJctPoJ92HmbGxFv1Pv_ugsggGD2
Il me semble que les points 3 et 5 seront également abordés plus tard dans la série.
J’écoute avec beaucoup d’intérêt la série « Comprendre l’infrastructure de données moderne » chaque fois qu’un nouvel épisode est publié.
Comme j’utilise au quotidien uniquement les outils habituels, il est difficile de découvrir les nouvelles tendances, donc merci de les expliquer aussi clairement.