- Permet aux ingénieurs data de relier différents silos de données pour créer une vue unifiée
→ Un outil de ML no-code pour l’unification des données
- Pourquoi est-ce nécessaire ?
→ Dans les données réelles, plusieurs enregistrements existent souvent pour un même client
→ Chaque enregistrement est réparti entre un ou plusieurs systèmes, ce qui rend l’analyse client difficile à mesure que les données grossissent
→ Dans l’ELT, le T demande beaucoup d’efforts, et des outils comme dbt permettent de bien traiter ce type de problème
→ Il faut créer une « Single Source of Truth » pour les principaux objets métier avant l’extraction ou le chargement, avec une méthode rapide et scalable
- Cas d’usage utiles
→ Création d’une vue unifiée et fiable des clients présents dans plusieurs systèmes
→ Vérification d’entités à grande échelle pour l’AML/KYC
→ Déduplication et qualité des données
→ Fusion de silos de données
→ Enrichissement de données provenant de sources externes
- Sources prises en charge
→ Snowflake, Cassandra, S3, Azure, Elastic, les principales bases RDBMS et les sources de données prises en charge par Spark
→ Prend aussi en charge des fichiers comme Parquet, Avro, JSON, XLSX, CSV et TSV
Aucun commentaire pour le moment.