Zingg - open source de fuzzy matching scalable pour l’unification des données

(github.com)

8 points par xguru 2021-09-16 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Permet aux ingénieurs data de relier différents silos de données pour créer une vue unifiée

→ Un outil de ML no-code pour l’unification des données

Pourquoi est-ce nécessaire ?

→ Dans les données réelles, plusieurs enregistrements existent souvent pour un même client

→ Chaque enregistrement est réparti entre un ou plusieurs systèmes, ce qui rend l’analyse client difficile à mesure que les données grossissent

→ Dans l’ELT, le T demande beaucoup d’efforts, et des outils comme dbt permettent de bien traiter ce type de problème

→ Il faut créer une « Single Source of Truth » pour les principaux objets métier avant l’extraction ou le chargement, avec une méthode rapide et scalable

Cas d’usage utiles

→ Création d’une vue unifiée et fiable des clients présents dans plusieurs systèmes

→ Vérification d’entités à grande échelle pour l’AML/KYC

→ Déduplication et qualité des données

→ Fusion de silos de données

→ Enrichissement de données provenant de sources externes

Sources prises en charge

→ Snowflake, Cassandra, S3, Azure, Elastic, les principales bases RDBMS et les sources de données prises en charge par Spark

→ Prend aussi en charge des fichiers comme Parquet, Avro, JSON, XLSX, CSV et TSV

Zingg - open source de fuzzy matching scalable pour l’unification des données

À lire aussi

Aucun commentaire pour le moment.