Hyperspace - sous-système d’indexation open source de MS pour Apache Spark
(microsoft.github.io)Sous-système qui permet l’accélération des requêtes basée sur des index dans Apache Spark
→ création et gestion d’index pour les données CSV, JSON et Parquet
→ utilisation automatique de ces index pour accélérer les requêtes/charges de travail sans modification du code
- Selon le benchmark TPC, vitesse des requêtes multipliée jusqu’à 11x pour certaines requêtes
→ globalement, accélération d’environ 2x des performances des requêtes sur du matériel standard
-
API simples comme
create,refresh,delete,restore,vacuum,cancel -
Prise en charge de Scala, Python et .NET
Utilisé dans Azure Synapse Analytics du cloud Microsoft Azure
(service d’analyse illimitée combinant data warehousing d’entreprise et analyse big data)
1 commentaires
Article de présentation : Hyperspace, un sous-système d’indexation pour Apache Spark™, est désormais open source
https://cloudblogs.microsoft.com/opensource/2020/…