8 points par xguru 2020-07-20 | 1 commentaires | Partager sur WhatsApp

Sous-système qui permet l’accélération des requêtes basée sur des index dans Apache Spark

→ création et gestion d’index pour les données CSV, JSON et Parquet

→ utilisation automatique de ces index pour accélérer les requêtes/charges de travail sans modification du code

  • Selon le benchmark TPC, vitesse des requêtes multipliée jusqu’à 11x pour certaines requêtes

→ globalement, accélération d’environ 2x des performances des requêtes sur du matériel standard

  • API simples comme create, refresh, delete, restore, vacuum, cancel

  • Prise en charge de Scala, Python et .NET

Utilisé dans Azure Synapse Analytics du cloud Microsoft Azure

(service d’analyse illimitée combinant data warehousing d’entreprise et analyse big data)

1 commentaires

 
xguru 2020-07-20

Article de présentation : Hyperspace, un sous-système d’indexation pour Apache Spark™, est désormais open source

https://cloudblogs.microsoft.com/opensource/2020/…