Feuille de route : Data 3.0 à l’ère du lakehouse

(bvp.com)

8 points par GN⁺ 2025-04-01 | 2 commentaires | Partager sur WhatsApp

L’infrastructure de données des entreprises évolue avec les avancées technologiques et rend possibles de nouveaux produits et services
L’infrastructure de données a évolué des data warehouses on-premise vers des data warehouses cloud et des data lakes
Récemment, avec l’essor rapide de l’IA, une nouvelle architecture appelée data lakehouse émerge, marquant l’entrée dans l’ère de Data 3.0
Le lakehouse réinvente le cœur de l’infrastructure de données des entreprises comme une plateforme unifiée, performante et interopérable prenant en charge divers usages, dont l’analytique et les workloads d’IA
Cela augmente fortement la probabilité de voir émerger de nouvelles entreprises d’infrastructure de données valant plusieurs milliards de dollars

Contexte de l’innovation lakehouse

Entre 2019 et 2024, les investissements des entreprises dans l’infrastructure de données ont doublé, passant d’environ 180 à 350 milliards de dollars
Les data warehouses et data lakes existants ne répondent pas complètement aux exigences de l’IA
Les workloads centrés sur l’IA imposent les exigences suivantes :
- pouvoir traiter à la fois des données structurées, semi-structurées et non structurées
- permettre un traitement des données en temps réel, multimodal et composable
- assurer l’interopérabilité entre bases de données traditionnelles et bases de données vectorielles
Évolution de la demande des clients entreprises :
- besoin de supprimer les duplications de données
- complexité croissante de la gouvernance des données
- volonté d’échapper au verrouillage fournisseur et besoin de flexibilité
- difficulté à identifier des solutions adaptées à l’IA

Les open table formats (OTF) comme Delta Lake, Iceberg et Hudi constituent la base du lakehouse
Fonctions principales :
- prise en charge des transactions ACID : garantie de cohérence et de fiabilité des données
- prise en charge du traitement batch et streaming
- souplesse des schémas et du partitionnement
- possibilité de revenir à un état antérieur grâce au time travel
- gestion évolutive des métadonnées

Le data lakehouse est une nouvelle architecture qui combine les performances du data warehouse et la flexibilité du data lake
Il s’impose comme une infrastructure de nouvelle génération pour les applications fondées sur l’IA, l’analytique temps réel et la business intelligence
Grandes entreprises et startups accélèrent leur transition vers le lakehouse, et un nouveau marché se forme autour de ce mouvement

Les outils ETL traditionnels sont inefficaces à l’échelle de l’IA
Prefect, Windmill et dltHub prennent en charge des pipelines de données et de l’orchestration basés sur le code
Des outils comme Tobiko offrent l’automatisation SQL, le data lineage, le suivi des dépendances, etc.
Le Model Context Protocol (MCP) d’Anthropic fournit une interface standardisée pour préserver le contexte des workflows d’IA
Apache Kafka et Flink apportent des capacités de messagerie et de traitement en streaming essentielles à l’entraînement et à l’inférence en temps réel
Chalk AI contribue à des décisions rapides grâce à une plateforme d’inférence temps réel
La couche de métadonnées s’impose à l’ère de l’IA comme une importante source of truth

Les métadonnées ne sont plus de simples informations, mais désormais une couche centrale qui pilote l’action
Les open table formats comme Iceberg, Delta Lake et Hudi mènent l’innovation autour des métadonnées
Des catalogues natifs lakehouse comme Datastrato et Vakamo font leur apparition
DataHub d’Acryl Data prend en charge l’accès aux données et la gouvernance pour les humains comme pour les agents IA
OpenHouse, Apache Amoro et Ryft fournissent un Control Plane centré sur les métadonnées
Flarion.io et Greybeam développent des outils d’optimisation des performances sur des couches autres que le stockage

Avec la diffusion du lakehouse, l’architecture historiquement centrée sur une plateforme unique évolue vers une architecture modulaire
Au-delà de Snowflake et Databricks, des solutions spécialisées comme DuckDB, ClickHouse et Druid progressent
Daft, typedef, Mooncake et Bauplan développent de nouveaux frameworks de calcul optimisés pour l’IA
L’émergence de moteurs de requête optimisés pour l’IA et de plateformes de calcul fédéré établit une nouvelle référence pour le traitement des données

Les applications centrées sur l’IA font évoluer le secteur vers des développeurs généralisés dotés de compétences data
dbt Labs introduit dans le développement data des pratiques de software engineering comme le versioning, les tests et le CI/CD
Gable facilite la création de pipelines de données grâce à une interface conviviale
Temporal et Inngest apportent fiabilité et visibilité aux workflows distribués complexes
Les contributions à l’open source augmentent fortement, et la croissance des projets liés à la data sur GitHub dépasse celle des logiciels généralistes
L’adoption de l’open source progresse pour mieux bénéficier du support des LLM
La convergence entre IA et engineering centré sur les données transforme en profondeur la structure des équipes et les modes de développement

halfenif 2025-04-01

Quelle est la suite du Lakehouse ?

Dataland ?

yangeok 2025-04-01

J’espère que les coûts baisseront au point que même les startups puissent tenter l’expérience haha