8 points par xguru 2021-09-16 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Permet aux ingénieurs data de relier différents silos de données pour créer une vue unifiée

→ Un outil de ML no-code pour l’unification des données

  • Pourquoi est-ce nécessaire ?

→ Dans les données réelles, plusieurs enregistrements existent souvent pour un même client

→ Chaque enregistrement est réparti entre un ou plusieurs systèmes, ce qui rend l’analyse client difficile à mesure que les données grossissent

→ Dans l’ELT, le T demande beaucoup d’efforts, et des outils comme dbt permettent de bien traiter ce type de problème

→ Il faut créer une « Single Source of Truth » pour les principaux objets métier avant l’extraction ou le chargement, avec une méthode rapide et scalable

  • Cas d’usage utiles

→ Création d’une vue unifiée et fiable des clients présents dans plusieurs systèmes

→ Vérification d’entités à grande échelle pour l’AML/KYC

→ Déduplication et qualité des données

→ Fusion de silos de données

→ Enrichissement de données provenant de sources externes

  • Sources prises en charge

→ Snowflake, Cassandra, S3, Azure, Elastic, les principales bases RDBMS et les sources de données prises en charge par Spark

→ Prend aussi en charge des fichiers comme Parquet, Avro, JSON, XLSX, CSV et TSV

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.