Hyperspace - sous-système d’indexation open source de MS pour Apache Spark

(microsoft.github.io)

8 points par xguru 2020-07-20 | 1 commentaires | Partager sur WhatsApp

Sous-système qui permet l’accélération des requêtes basée sur des index dans Apache Spark

→ création et gestion d’index pour les données CSV, JSON et Parquet

→ utilisation automatique de ces index pour accélérer les requêtes/charges de travail sans modification du code

Selon le benchmark TPC, vitesse des requêtes multipliée jusqu’à 11x pour certaines requêtes

→ globalement, accélération d’environ 2x des performances des requêtes sur du matériel standard

Utilisé dans Azure Synapse Analytics du cloud Microsoft Azure

(service d’analyse illimitée combinant data warehousing d’entreprise et analyse big data)

1 commentaires

xguru 2020-07-20

Article de présentation : Hyperspace, un sous-système d’indexation pour Apache Spark™, est désormais open source