3 points par xguru 2020-02-18 | 2 commentaires | Partager sur WhatsApp

Comment Here Mobility a mis en place un CI/CD de base de données pour les ingénieurs data et les analystes.

  • Jusqu’ici, l’équipe analytique envoyait les données du data lake S3 vers RedShift via des ETL PySpark. Les scripts SQL nécessaires relevaient également de l’équipe analytique

  • Le code PySpark suit le CI/CD applicatif, donc il ne pose pas de problème, mais le code SQL pour RedShift est difficile à tester, versionner et suivre.

  • Ils ont développé redCI, un outil de CI/CD dédié à RedShift, avec contrôle de version, validation du code, intégration dans les pipelines Jenkins et déploiement automatique sur RedShift

  • redCI - en code Python, il peut se connecter à Redshift et Postgres, lire et exécuter des fichiers de scripts compatibles PSQL. Il convertit la syntaxe Redshift en PSQL. Cela permet d’exécuter des tests unitaires

  • Problème rencontré lors de l’implémentation : RedShift est basé sur Postgres 8, mais comme les fonctions prises en charge diffèrent, cela peut poser problème. Ils l’ont résolu en convertissant le code puis en l’exécutant sur un Postgres lancé dans Docker.

2 commentaires

 
xguru 2020-02-18

Here était autrefois Navteq, puis a été rachetée par Nokia, et appartient désormais au consortium allemand Audi/BMW/Daimler AG, une entreprise de services de cartographie et de données de localisation.

 
xguru 2020-02-18

Ce serait bien qu’ils ouvrent redCI lui-même en open source, mais apparemment ils n’en sont pas encore là.