Tuplex - Framework de traitement parallèle du big data

xguru · 2021-07-09T09:20:53+09:00

Fournit une API Python similaire à Apache Spark / Dask, mais → n’appelle pas l’interpréteur Python → génère du bytecode LLVM optimisé pour le pipeline donné et le jeu de données d’entrée → 5 à 91x plus rapide que l’interpréteur En interne, il s’appuie sur la compilation pilotée par les données et un traitement en double mode, ce qui lui permet d’atteindre une vitesse comparable à celle d’un pipeline codé et optimisé en C++ Prend en charge macOS / Linux Article présenté à la SIGMOD '21 : "Tuplex: Data Science in Python at Native Code Speed"

(github.com)

11 points par xguru 2021-07-09 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Fournit une API Python similaire à Apache Spark / Dask, mais

→ n’appelle pas l’interpréteur Python

→ génère du bytecode LLVM optimisé pour le pipeline donné et le jeu de données d’entrée

→ 5 à 91x plus rapide que l’interpréteur

En interne, il s’appuie sur la compilation pilotée par les données et un traitement en double mode, ce qui lui permet d’atteindre une vitesse comparable à celle d’un pipeline codé et optimisé en C++
Prend en charge macOS / Linux
Article présenté à la SIGMOD '21 : "Tuplex: Data Science in Python at Native Code Speed"

Tuplex - Framework de traitement parallèle du big data

À lire aussi

Aucun commentaire pour le moment.