Perspectives du data engineering : les prévisions 2025 de Data Engineering Weekly

xguru · 2024-12-23T10:36:01+09:00

Principales évolutions du data engineering en 2024 : croissance fulgurante de l’IA générative, maturation de la gouvernance des données, et accent mis sur l’efficacité et le traitement en temps réel En 2025, cinq grandes tendances devraient, dans le prolongement de ces dynamiques, transformer l’univers de la donnée 1. Les progrès du calcul pour l’IA NVIDIA est devenue l’entreprise la plus valorisée au monde en capitalisation boursière, avec une croissance digne d’un phénomène générationnel Google a annoncé une percée majeure dans l’informatique quantique avec Willow Amazon, Google et Microsoft se livrent une concurrence intense sur le marché des puces IA, dont la puce Trainium2 d’Amazon est un exemple représentatif Les PC et appareils équipés de Neural Processing Units (NPUs) rendent possibles les traitements IA hors ligne et améliorent la confidentialité des données Des innovations comme l’Edge TPU de Google accélèrent la transition vers un edge computing économe en énergie, réduisant la dépendance aux infrastructures cloud centralisées Le passage à des architectures de calcul hybrides et sobres en énergie comble l’écart entre performance, coût et confidentialité des applications IA Les puces neuromorphiques, qui imitent la structure du cerveau, devraient offrir une efficacité énergétique inégalée et une capacité de traitement des données non structurées directement sur l’appareil Des avancées significatives dans les domaines du calcul neuromorphique et quantique ouvrent de nouveaux horizons pour les capacités de l’IA Ces progrès du matériel IA devraient stimuler, à partir de 2025, l’innovation en traitement du langage naturel, vision par ordinateur, robotique et santé 2. L’évolution des modèles de langage spécialisés par domaine Domain-specific language models (LLMs) Des modèles de langage spécialisés, entraînés sur des jeux de données propres à un secteur, font franchir un nouveau cap à l’adoption de l’IA dans chaque industrie Les secteurs de la santé, de la finance, du droit ou de l’industrie manufacturière adoptent ces modèles pour traiter avec précision des tâches complexes et riches en contexte Grâce à des capacités IA ajustées aux exigences fines de chaque secteur, ils transforment les processus métier et la prise de décision dans l’ensemble de l’entreprise Small Language Models (SLMs) Les petits modèles de langage (Small Language Models, SLMs) attirent l’attention pour leur efficacité économique et leur adaptabilité Des SLMs optimisés pour des tâches spécifiques montrent de meilleures performances que les grands modèles dans des domaines restreints Avec des besoins de calcul réduits et un déploiement simplifié, les SLMs devraient démocratiser l’accès à l’IA en permettant à des organisations de toutes tailles d’implémenter des capacités linguistiques avancées sans avoir à gérer des systèmes gourmands en ressources 3. Les orchestrateurs IA et le raisonnement multi-étapes Orchestrateurs IA À mesure que les entreprises adoptent divers agents IA spécialisés, les orchestrateurs IA devraient jouer un rôle central dans la stack data pilotée par l’IA En tant que plan de contrôle intelligent, ces orchestrateurs acheminent dynamiquement les tâches vers l’agent le plus approprié, agrègent les résultats et fournissent des insights actionnables Grâce à une compréhension approfondie du contenu, des capacités multilingues et la prise en charge de divers types de données, ils intègrent plusieurs agents IA dans des workflows cohérents Progrès du raisonnement multi-étapes Les modèles d’IA évoluent au-delà du simple question-réponse pour résoudre des problèmes complexes via un raisonnement en plusieurs étapes En décomposant les tâches complexes en petites étapes séquentielles, ils permettent des analyses plus précises et plus riches en enseignements Cette capacité permettra aux agents IA de prendre en charge l’automatisation de tâches de long tail dans le code, la médecine, le droit et d’autres secteurs La combinaison des orchestrateurs IA et du raisonnement multi-étapes ouvrira une nouvelle ère de l’IA, élargissant fortement son influence sur la résolution de problèmes et la prise de décision dans de nombreux domaines 4. Les environnements de développement intégrés de nouvelle génération pour l’intégration des données (Data IDE) La hausse de la demande en insights data transforme en profondeur l’approche du data engineering dans les organisations En 2025, un nouveau type d’environnement de développement intégré (IDE), conçu pour démocratiser efficacement l’accès et la manipulation des données, devrait émerger Des outils comme lakebyte.ai montrent déjà les débuts de cette innovation Caractéristiques clés Intégration fluide De l’ingestion et la transformation à l’analyse, la visualisation et le déploiement, l’ensemble du cycle de vie des données est intégré de manière fluide dans un environnement unifié Assistance intelligente pilotée par l’IA Ces environnements embarqueront des fonctions IA offrant complétion de code intelligente, nettoyage automatisé des données et suggestions pertinentes pour optimiser les pipelines Elles aideront non seulement à écrire du code, mais aussi à comprendre la signification des données et à suggérer les meilleures façons de les transformer Interfaces Low-Code/No-Code Des interfaces visuelles en drag-and-drop permettront même aux utilisateurs ayant peu d’expérience en programmation de construire et gérer des pipelines de données Elles offriront aussi aux utilisateurs avancés la flexibilité d’écrire du code personnalisé lorsque nécessaire Fonctionnalités de collaboration Elles favoriseront une collaboration fluide entre data engineers, data scientists, analystes et utilisateurs métier Elles permettront de travailler ensemble sur des projets data dans un environnement partagé Gouvernance des données intégrée Contrôles de qualité des données, pipelines CI/CD, exécution de tests d’intégration avant mise en production, contrôle d’accès et traçabilité de la lignée seront directement intégrés au workflow de développement Cela garantira que la gouvernance des données ne soit pas traitée après coup Prise en charge de diverses sources et formats de données Des connecteurs natifs seront fournis pour un large éventail de sources de données, dont bases de données, data lakes, plateformes de streaming et stockage cloud Différents formats de données seront pris en charge, y compris les données structurées, semi-structurées et non structurées Cloud-native et scalabilité Ils seront conçus pour fonctionner dans le cloud en tirant parti de la scalabilité et de l’élasticité de l’infrastructure cloud La démocratisation de la donnée via des IDE puissants et intuitifs devrait faire émerger les « Citizen Data Engineers » Des experts métier pourront construire et gérer des workflows data même sans être des programmeurs traditionnels À mesure que les barrières tombent entre équipes techniques et non techniques, l’innovation guidée par les données devrait s’accélérer En 2025, le prompt wrangling devrait devenir la compétence la plus importante pour les data engineers 5. L’essor des LakeDB : transformer les formats lakehouse en base de données Les frontières entre data lakes, data warehouses et bases de données deviennent de plus en plus floues En 2025, un nouveau paradigme appelé LakeDB devrait émerger Il s’agit d’une évolution du concept de LakeHouse, qui intègre directement dans les data lakes des capacités de base de données plus puissantes Cela permet de conserver la scalabilité et la flexibilité du stockage objet tout en offrant les performances et la facilité d’usage des bases de données traditionnelles Il offrira des fonctionnalités avancées qui vont au-delà de la simple interrogation du stockage objet et des formats tabulaires En gérant nativement le buffering, le caching, les index et les opérations d’écriture, il atteindra des niveaux de performance et d’efficacité dignes des LakeHouse Les LakeHouse actuels dépendent de frameworks de traitement externes comme Spark ou Flink pour l’ingestion, la transformation et l’écriture des données Cette dépendance accroît la complexité et introduit de la latence Selon l’implémentation, elle peut aussi entraîner des performances inconstantes et des problèmes d’interopérabilité LakeDB inclura notamment les fonctions suivantes : Écriture native Il fournira un chemin d’écriture optimisé directement vers le stockage objet sous-jacent, éliminant dans les opérations courantes le besoin de moteurs de traitement externes L’ajout récent des écritures conditionnelles S3 laisse penser que le stockage objet cloud pourra prendre en charge ce chemin d’écriture des LakeDB Buffering et caching intelligents Il gérera intelligemment le buffering et le caching des données pour optimiser à la fois les performances en lecture et en écriture Gestion transactionnelle En s’appuyant sur les écritures conditionnelles S3 et des techniques avancées de gestion des métadonnées, il offrira de solides capacités de gestion des transactions Il fournira des mécanismes intégrés garantissant la cohérence et l’intégrité des données Performance de requête intelligente Il intégrera des moteurs OLAP in-process comme DuckDB afin d’améliorer l’efficacité du traitement des petits volumes de données L’indexation avancée et l’optimisation des requêtes amélioreront l’efficacité des requêtes Il sélectionnera automatiquement la meilleure stratégie sans obliger l’utilisateur à définir séparément une stratégie selon le volume de données Gestion automatisée des données Le tiering des données, la compression et d’autres fonctions d’optimisation seront automatisés afin de simplifier l’exploitation et de réduire les coûts Recherche vectorielle et capacités d’extension Il offrira une prise en charge intégrée des bases de données vectorielles et de la recherche par similarité En appliquant sélectivement la meilleure technique d’indexation à chaque colonne, il pourra optimiser les performances en lecture comme en écriture Des fonctions comme la prise en charge des index secondaires de Hudi ou les types de données variables de Delta apparaissent déjà dans les formats LakeHouse Le concept de LakeDB n’en est encore qu’à ses débuts, mais des innovations majeures sont attendues dans ce domaine en 2025 Les formats LakeHouse existants pourraient évoluer pour intégrer davantage de fonctions proches des LakeDB, et de nouvelles solutions conçues dès l’origine autour de cette vision pourraient aussi apparaître 6. Le Data Mesh & le zero ETL fondé sur les contrats, avec des architectures fédérées Malgré le scepticisme autour des contrats de données et des meshes, davantage d’entreprises devraient adopter des architectures de data mesh L’usage du data mesh devrait particulièrement progresser dans les cas nécessitant des échanges de données au sein de l’entreprise Le zero ETL et les architectures de requêtes fédérées tirent cette transformation Zero ETL Les technologies évoluent dans le sens d’une réduction maximale des déplacements et de la duplication des données Des technologies comme la virtualisation des données, les moteurs de requêtes fédérées et les protocoles de partage de données rendent possibles l’accès et l’analyse des données sans processus ETL complexes Les processus ETL traditionnels, complexes et chronophages, devraient ainsi être simplifiés Le partage de données s’impose comme un enjeu central Des protocoles et plateformes de partage de données sûrs et efficaces permettront de collaborer avec des partenaires, des clients et même des concurrents L’adoption de standards comme Delta Sharing devrait progresser et continuer à évoluer Perspectives Les équipes de domaine devraient pouvoir posséder leurs propres pipelines de données, créer des produits data et partager de manière fluide les données au-delà des frontières organisationnelles À mesure que les entreprises entraînent davantage de LLMs sur leurs propres données, l’importance du partage de données devrait encore croître Les modèles de partage de données devraient améliorer l’agilité, réduire le temps nécessaire pour produire des insights et permettre une gestion des données plus distribuée et plus scalable Conclusion L’essor de l’IA et la démocratisation de la donnée via de nouveaux IDE s’accélèrent L’évolution du rôle des data engineers et l’émergence des LakeDB transforment en profondeur les modes de gestion des données Les principes du data mesh, soutenus par le zero ETL et les architectures fédérées, s’imposent dans le courant dominant Dans cet environnement dynamique, le rôle du data engineer devient plus crucial que jamais Il devrait occuper une place centrale en tant qu’architecte des insights, garant de la qualité des données et moteur de l’innovation En s’adaptant aux exigences changeantes d’un monde piloté par les données, il devrait créer de nouvelles formes de valeur

(dataengineeringweekly.com)

18 points par xguru 2024-12-23 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Principales évolutions du data engineering en 2024 : croissance fulgurante de l’IA générative, maturation de la gouvernance des données, et accent mis sur l’efficacité et le traitement en temps réel
En 2025, cinq grandes tendances devraient, dans le prolongement de ces dynamiques, transformer l’univers de la donnée

1. Les progrès du calcul pour l’IA

NVIDIA est devenue l’entreprise la plus valorisée au monde en capitalisation boursière, avec une croissance digne d’un phénomène générationnel
Google a annoncé une percée majeure dans l’informatique quantique avec Willow
Amazon, Google et Microsoft se livrent une concurrence intense sur le marché des puces IA, dont la puce Trainium2 d’Amazon est un exemple représentatif
Les PC et appareils équipés de Neural Processing Units (NPUs) rendent possibles les traitements IA hors ligne et améliorent la confidentialité des données
Des innovations comme l’Edge TPU de Google accélèrent la transition vers un edge computing économe en énergie, réduisant la dépendance aux infrastructures cloud centralisées
Le passage à des architectures de calcul hybrides et sobres en énergie comble l’écart entre performance, coût et confidentialité des applications IA
Les puces neuromorphiques, qui imitent la structure du cerveau, devraient offrir une efficacité énergétique inégalée et une capacité de traitement des données non structurées directement sur l’appareil
Des avancées significatives dans les domaines du calcul neuromorphique et quantique ouvrent de nouveaux horizons pour les capacités de l’IA
Ces progrès du matériel IA devraient stimuler, à partir de 2025, l’innovation en traitement du langage naturel, vision par ordinateur, robotique et santé

2. L’évolution des modèles de langage spécialisés par domaine

Domain-specific language models (LLMs)
- Des modèles de langage spécialisés, entraînés sur des jeux de données propres à un secteur, font franchir un nouveau cap à l’adoption de l’IA dans chaque industrie
- Les secteurs de la santé, de la finance, du droit ou de l’industrie manufacturière adoptent ces modèles pour traiter avec précision des tâches complexes et riches en contexte
- Grâce à des capacités IA ajustées aux exigences fines de chaque secteur, ils transforment les processus métier et la prise de décision dans l’ensemble de l’entreprise
Small Language Models (SLMs)
- Les petits modèles de langage (Small Language Models, SLMs) attirent l’attention pour leur efficacité économique et leur adaptabilité
- Des SLMs optimisés pour des tâches spécifiques montrent de meilleures performances que les grands modèles dans des domaines restreints
- Avec des besoins de calcul réduits et un déploiement simplifié, les SLMs devraient démocratiser l’accès à l’IA en permettant à des organisations de toutes tailles d’implémenter des capacités linguistiques avancées sans avoir à gérer des systèmes gourmands en ressources

3. Les orchestrateurs IA et le raisonnement multi-étapes

Orchestrateurs IA
- À mesure que les entreprises adoptent divers agents IA spécialisés, les orchestrateurs IA devraient jouer un rôle central dans la stack data pilotée par l’IA
- En tant que plan de contrôle intelligent, ces orchestrateurs acheminent dynamiquement les tâches vers l’agent le plus approprié, agrègent les résultats et fournissent des insights actionnables
- Grâce à une compréhension approfondie du contenu, des capacités multilingues et la prise en charge de divers types de données, ils intègrent plusieurs agents IA dans des workflows cohérents
Progrès du raisonnement multi-étapes
- Les modèles d’IA évoluent au-delà du simple question-réponse pour résoudre des problèmes complexes via un raisonnement en plusieurs étapes
- En décomposant les tâches complexes en petites étapes séquentielles, ils permettent des analyses plus précises et plus riches en enseignements
- Cette capacité permettra aux agents IA de prendre en charge l’automatisation de tâches de long tail dans le code, la médecine, le droit et d’autres secteurs
La combinaison des orchestrateurs IA et du raisonnement multi-étapes ouvrira une nouvelle ère de l’IA, élargissant fortement son influence sur la résolution de problèmes et la prise de décision dans de nombreux domaines

4. Les environnements de développement intégrés de nouvelle génération pour l’intégration des données (Data IDE)

La hausse de la demande en insights data transforme en profondeur l’approche du data engineering dans les organisations
En 2025, un nouveau type d’environnement de développement intégré (IDE), conçu pour démocratiser efficacement l’accès et la manipulation des données, devrait émerger
Des outils comme lakebyte.ai montrent déjà les débuts de cette innovation
Caractéristiques clés
- Intégration fluide
  - De l’ingestion et la transformation à l’analyse, la visualisation et le déploiement, l’ensemble du cycle de vie des données est intégré de manière fluide dans un environnement unifié
- Assistance intelligente pilotée par l’IA
  - Ces environnements embarqueront des fonctions IA offrant complétion de code intelligente, nettoyage automatisé des données et suggestions pertinentes pour optimiser les pipelines
  - Elles aideront non seulement à écrire du code, mais aussi à comprendre la signification des données et à suggérer les meilleures façons de les transformer
- Interfaces Low-Code/No-Code
  - Des interfaces visuelles en drag-and-drop permettront même aux utilisateurs ayant peu d’expérience en programmation de construire et gérer des pipelines de données
  - Elles offriront aussi aux utilisateurs avancés la flexibilité d’écrire du code personnalisé lorsque nécessaire
- Fonctionnalités de collaboration
  - Elles favoriseront une collaboration fluide entre data engineers, data scientists, analystes et utilisateurs métier
  - Elles permettront de travailler ensemble sur des projets data dans un environnement partagé
- Gouvernance des données intégrée
  - Contrôles de qualité des données, pipelines CI/CD, exécution de tests d’intégration avant mise en production, contrôle d’accès et traçabilité de la lignée seront directement intégrés au workflow de développement
  - Cela garantira que la gouvernance des données ne soit pas traitée après coup
- Prise en charge de diverses sources et formats de données
  - Des connecteurs natifs seront fournis pour un large éventail de sources de données, dont bases de données, data lakes, plateformes de streaming et stockage cloud
  - Différents formats de données seront pris en charge, y compris les données structurées, semi-structurées et non structurées
- Cloud-native et scalabilité
  - Ils seront conçus pour fonctionner dans le cloud en tirant parti de la scalabilité et de l’élasticité de l’infrastructure cloud
La démocratisation de la donnée via des IDE puissants et intuitifs devrait faire émerger les « Citizen Data Engineers »
- Des experts métier pourront construire et gérer des workflows data même sans être des programmeurs traditionnels
À mesure que les barrières tombent entre équipes techniques et non techniques, l’innovation guidée par les données devrait s’accélérer
En 2025, le prompt wrangling devrait devenir la compétence la plus importante pour les data engineers

5. L’essor des LakeDB : transformer les formats lakehouse en base de données

Les frontières entre data lakes, data warehouses et bases de données deviennent de plus en plus floues
En 2025, un nouveau paradigme appelé LakeDB devrait émerger
Il s’agit d’une évolution du concept de LakeHouse, qui intègre directement dans les data lakes des capacités de base de données plus puissantes
- Cela permet de conserver la scalabilité et la flexibilité du stockage objet tout en offrant les performances et la facilité d’usage des bases de données traditionnelles
Il offrira des fonctionnalités avancées qui vont au-delà de la simple interrogation du stockage objet et des formats tabulaires
- En gérant nativement le buffering, le caching, les index et les opérations d’écriture, il atteindra des niveaux de performance et d’efficacité dignes des LakeHouse
Les LakeHouse actuels dépendent de frameworks de traitement externes comme Spark ou Flink pour l’ingestion, la transformation et l’écriture des données
- Cette dépendance accroît la complexité et introduit de la latence
- Selon l’implémentation, elle peut aussi entraîner des performances inconstantes et des problèmes d’interopérabilité
LakeDB inclura notamment les fonctions suivantes :
- Écriture native
  - Il fournira un chemin d’écriture optimisé directement vers le stockage objet sous-jacent, éliminant dans les opérations courantes le besoin de moteurs de traitement externes
  - L’ajout récent des écritures conditionnelles S3 laisse penser que le stockage objet cloud pourra prendre en charge ce chemin d’écriture des LakeDB
- Buffering et caching intelligents
  - Il gérera intelligemment le buffering et le caching des données pour optimiser à la fois les performances en lecture et en écriture
- Gestion transactionnelle
  - En s’appuyant sur les écritures conditionnelles S3 et des techniques avancées de gestion des métadonnées, il offrira de solides capacités de gestion des transactions
  - Il fournira des mécanismes intégrés garantissant la cohérence et l’intégrité des données
- Performance de requête intelligente
  - Il intégrera des moteurs OLAP in-process comme DuckDB afin d’améliorer l’efficacité du traitement des petits volumes de données
  - L’indexation avancée et l’optimisation des requêtes amélioreront l’efficacité des requêtes
  - Il sélectionnera automatiquement la meilleure stratégie sans obliger l’utilisateur à définir séparément une stratégie selon le volume de données
- Gestion automatisée des données
  - Le tiering des données, la compression et d’autres fonctions d’optimisation seront automatisés afin de simplifier l’exploitation et de réduire les coûts
- Recherche vectorielle et capacités d’extension
  - Il offrira une prise en charge intégrée des bases de données vectorielles et de la recherche par similarité
  - En appliquant sélectivement la meilleure technique d’indexation à chaque colonne, il pourra optimiser les performances en lecture comme en écriture
  - Des fonctions comme la prise en charge des index secondaires de Hudi ou les types de données variables de Delta apparaissent déjà dans les formats LakeHouse
Le concept de LakeDB n’en est encore qu’à ses débuts, mais des innovations majeures sont attendues dans ce domaine en 2025
Les formats LakeHouse existants pourraient évoluer pour intégrer davantage de fonctions proches des LakeDB, et de nouvelles solutions conçues dès l’origine autour de cette vision pourraient aussi apparaître

6. Le Data Mesh & le zero ETL fondé sur les contrats, avec des architectures fédérées

Malgré le scepticisme autour des contrats de données et des meshes, davantage d’entreprises devraient adopter des architectures de data mesh
L’usage du data mesh devrait particulièrement progresser dans les cas nécessitant des échanges de données au sein de l’entreprise
Le zero ETL et les architectures de requêtes fédérées tirent cette transformation
Zero ETL
- Les technologies évoluent dans le sens d’une réduction maximale des déplacements et de la duplication des données
- Des technologies comme la virtualisation des données, les moteurs de requêtes fédérées et les protocoles de partage de données rendent possibles l’accès et l’analyse des données sans processus ETL complexes
- Les processus ETL traditionnels, complexes et chronophages, devraient ainsi être simplifiés
Le partage de données s’impose comme un enjeu central
- Des protocoles et plateformes de partage de données sûrs et efficaces permettront de collaborer avec des partenaires, des clients et même des concurrents
- L’adoption de standards comme Delta Sharing devrait progresser et continuer à évoluer
Perspectives
- Les équipes de domaine devraient pouvoir posséder leurs propres pipelines de données, créer des produits data et partager de manière fluide les données au-delà des frontières organisationnelles
- À mesure que les entreprises entraînent davantage de LLMs sur leurs propres données, l’importance du partage de données devrait encore croître
- Les modèles de partage de données devraient améliorer l’agilité, réduire le temps nécessaire pour produire des insights et permettre une gestion des données plus distribuée et plus scalable

Conclusion

L’essor de l’IA et la démocratisation de la donnée via de nouveaux IDE s’accélèrent
L’évolution du rôle des data engineers et l’émergence des LakeDB transforment en profondeur les modes de gestion des données
Les principes du data mesh, soutenus par le zero ETL et les architectures fédérées, s’imposent dans le courant dominant
Dans cet environnement dynamique, le rôle du data engineer devient plus crucial que jamais
- Il devrait occuper une place centrale en tant qu’architecte des insights, garant de la qualité des données et moteur de l’innovation
- En s’adaptant aux exigences changeantes d’un monde piloté par les données, il devrait créer de nouvelles formes de valeur