9 points par xguru 2020-09-09 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Utilisation de Presto à très grande échelle : 40 000 serveurs, ~1 exaoctet de données scannées chaque jour, plus de 80 % relevant de nouveaux ETL

→ Séparation du compute et du storage

  • Presto fonctionnait bien, mais pour des requêtes encore plus rapides (moins d'une seconde), Raptor a été développé

→ Mise en cache sur SSD local, metastore au niveau des fichiers

→ Le compute et le storage se sont à nouveau retrouvés couplés → montée en charge et gestion plus difficiles

  • Depuis l'automne dernier, développement d'un remplaçant de Raptor basé sur une version modifiée d'Alluxio : Alluxio Local Cache

→ Des performances proches de Raptor, mais sans nécessité de mettre en cache sur SSD local

→ Alluxio est un système de fichiers distribué virtuel qui sert de pont intermédiaire, en mémoire, entre plusieurs moteurs de calcul et plusieurs stockages

  • Alluxio Local Cache

→ Inclus dans la release officielle à partir de la version 2.2

→ Une bibliothèque pouvant être embarquée dans la JVM du serveur Presto, sans avoir à utiliser tout Alluxio

  • Alluxio Local Cache a été déployé sur la quasi-totalité de la flotte Presto de Facebook en remplacement de Raptor

→ Les données de Facebook sont au format de fichier ORC et accessibles via l'interface HDFS

→ Les SSD locaux sont également utilisés, mais si les données ne sont pas dans le cache, le stockage distant reste accessible

→ Gain de performance de 30 à 50 % sur Presto

→ Réduction de 57 % des accès au stockage distant par rapport à Raptor

→ Taux de hit du cache Alluxio supérieur à 90 %

→ Suppression complète de Raptor prévue d'ici six mois

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.