Leçons tirées de l’exploitation d’Airflow à grande échelle

(shopify.engineering)

8 points par xguru 2022-05-25 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Shopify l’utilise pour l’extraction de données, l’entraînement de modèles de machine learning, la maintenance de tables Apache Iceberg, la modélisation de données basée sur DBT, etc.

Lors de l’utilisation d’un stockage cloud, l’accès aux fichiers peut être lent
→ Amélioration des performances avec GCS + NFS
Quand le volume des métadonnées augmente, les opérations d’Airflow peuvent ralentir
→ Utilisation d’une politique de rétention fixée à 28 jours
Il peut être difficile de relier les DAG aux utilisateurs et aux équipes
→ Utilisation d’un dépôt centralisé de métadonnées
Les auteurs de DAG disposent de nombreux privilèges
→ Utilisation d’une policy de DAG
Il est difficile de garantir un équilibrage de charge cohérent
→ Créer des plannings standardisés pour réduire les pics de trafic
Il existe plusieurs points de contention sur les ressources
→ Utilisation de Pools, Priority Weight, Celerey Queue et Isolated Workers

Leçons tirées de l’exploitation d’Airflow à grande échelle

À lire aussi

Aucun commentaire pour le moment.