Comment Facebook accélère SQL
(datanami.com)- Utilisation de Presto à très grande échelle : 40 000 serveurs, ~1 exaoctet de données scannées chaque jour, plus de 80 % relevant de nouveaux ETL
→ Séparation du compute et du storage
- Presto fonctionnait bien, mais pour des requêtes encore plus rapides (moins d'une seconde), Raptor a été développé
→ Mise en cache sur SSD local, metastore au niveau des fichiers
→ Le compute et le storage se sont à nouveau retrouvés couplés → montée en charge et gestion plus difficiles
- Depuis l'automne dernier, développement d'un remplaçant de Raptor basé sur une version modifiée d'Alluxio : Alluxio Local Cache
→ Des performances proches de Raptor, mais sans nécessité de mettre en cache sur SSD local
→ Alluxio est un système de fichiers distribué virtuel qui sert de pont intermédiaire, en mémoire, entre plusieurs moteurs de calcul et plusieurs stockages
- Alluxio Local Cache
→ Inclus dans la release officielle à partir de la version 2.2
→ Une bibliothèque pouvant être embarquée dans la JVM du serveur Presto, sans avoir à utiliser tout Alluxio
- Alluxio Local Cache a été déployé sur la quasi-totalité de la flotte Presto de Facebook en remplacement de Raptor
→ Les données de Facebook sont au format de fichier ORC et accessibles via l'interface HDFS
→ Les SSD locaux sont également utilisés, mais si les données ne sont pas dans le cache, le stockage distant reste accessible
→ Gain de performance de 30 à 50 % sur Presto
→ Réduction de 57 % des accès au stockage distant par rapport à Raptor
→ Taux de hit du cache Alluxio supérieur à 90 %
→ Suppression complète de Raptor prévue d'ici six mois
Aucun commentaire pour le moment.