- L’infrastructure de données des entreprises évolue avec les avancées technologiques et rend possibles de nouveaux produits et services
- L’infrastructure de données a évolué des data warehouses on-premise vers des data warehouses cloud et des data lakes
- Récemment, avec l’essor rapide de l’IA, une nouvelle architecture appelée data lakehouse émerge, marquant l’entrée dans l’ère de Data 3.0
- Le lakehouse réinvente le cœur de l’infrastructure de données des entreprises comme une plateforme unifiée, performante et interopérable prenant en charge divers usages, dont l’analytique et les workloads d’IA
- Cela augmente fortement la probabilité de voir émerger de nouvelles entreprises d’infrastructure de données valant plusieurs milliards de dollars
Contexte de l’innovation lakehouse
- Entre 2019 et 2024, les investissements des entreprises dans l’infrastructure de données ont doublé, passant d’environ 180 à 350 milliards de dollars
- Les data warehouses et data lakes existants ne répondent pas complètement aux exigences de l’IA
- Les workloads centrés sur l’IA imposent les exigences suivantes :
- pouvoir traiter à la fois des données structurées, semi-structurées et non structurées
- permettre un traitement des données en temps réel, multimodal et composable
- assurer l’interopérabilité entre bases de données traditionnelles et bases de données vectorielles
- Évolution de la demande des clients entreprises :
- besoin de supprimer les duplications de données
- complexité croissante de la gouvernance des données
- volonté d’échapper au verrouillage fournisseur et besoin de flexibilité
- difficulté à identifier des solutions adaptées à l’IA
Les open table formats rendent le lakehouse possible
- Les open table formats (OTF) comme Delta Lake, Iceberg et Hudi constituent la base du lakehouse
- Fonctions principales :
- prise en charge des transactions ACID : garantie de cohérence et de fiabilité des données
- prise en charge du traitement batch et streaming
- souplesse des schémas et du partitionnement
- possibilité de revenir à un état antérieur grâce au time travel
- gestion évolutive des métadonnées
L’émergence du paradigme lakehouse
- Le data lakehouse est une nouvelle architecture qui combine les performances du data warehouse et la flexibilité du data lake
- Il s’impose comme une infrastructure de nouvelle génération pour les applications fondées sur l’IA, l’analytique temps réel et la business intelligence
- Grandes entreprises et startups accélèrent leur transition vers le lakehouse, et un nouveau marché se forme autour de ce mouvement
Thèse 1 : des pipelines intelligents en temps réel grâce à l’ingestion et à la transformation centrées sur l’IA
- Les outils ETL traditionnels sont inefficaces à l’échelle de l’IA
- Prefect, Windmill et dltHub prennent en charge des pipelines de données et de l’orchestration basés sur le code
- Des outils comme Tobiko offrent l’automatisation SQL, le data lineage, le suivi des dépendances, etc.
- Le Model Context Protocol (MCP) d’Anthropic fournit une interface standardisée pour préserver le contexte des workflows d’IA
- Apache Kafka et Flink apportent des capacités de messagerie et de traitement en streaming essentielles à l’entraînement et à l’inférence en temps réel
- Chalk AI contribue à des décisions rapides grâce à une plateforme d’inférence temps réel
- La couche de métadonnées s’impose à l’ère de l’IA comme une importante source of truth
Thèse 2 : l’importance stratégique croissante de la couche de métadonnées
- Les métadonnées ne sont plus de simples informations, mais désormais une couche centrale qui pilote l’action
- Les open table formats comme Iceberg, Delta Lake et Hudi mènent l’innovation autour des métadonnées
- Des catalogues natifs lakehouse comme Datastrato et Vakamo font leur apparition
- DataHub d’Acryl Data prend en charge l’accès aux données et la gouvernance pour les humains comme pour les agents IA
- OpenHouse, Apache Amoro et Ryft fournissent un Control Plane centré sur les métadonnées
- Flarion.io et Greybeam développent des outils d’optimisation des performances sur des couches autres que le stockage
Thèse 3 : évolution du computing et des moteurs de requête
- Avec la diffusion du lakehouse, l’architecture historiquement centrée sur une plateforme unique évolue vers une architecture modulaire
- Au-delà de Snowflake et Databricks, des solutions spécialisées comme DuckDB, ClickHouse et Druid progressent
- Daft, typedef, Mooncake et Bauplan développent de nouveaux frameworks de calcul optimisés pour l’IA
- L’émergence de moteurs de requête optimisés pour l’IA et de plateformes de calcul fédéré établit une nouvelle référence pour le traitement des données
Thèse 4 : la frontière entre data engineering et software engineering s’estompe
- Les applications centrées sur l’IA font évoluer le secteur vers des développeurs généralisés dotés de compétences data
- dbt Labs introduit dans le développement data des pratiques de software engineering comme le versioning, les tests et le CI/CD
- Gable facilite la création de pipelines de données grâce à une interface conviviale
- Temporal et Inngest apportent fiabilité et visibilité aux workflows distribués complexes
- Les contributions à l’open source augmentent fortement, et la croissance des projets liés à la data sur GitHub dépasse celle des logiciels généralistes
- L’adoption de l’open source progresse pour mieux bénéficier du support des LLM
- La convergence entre IA et engineering centré sur les données transforme en profondeur la structure des équipes et les modes de développement
2 commentaires
Quelle est la suite du Lakehouse ?
Dataland ?
J’espère que les coûts baisseront au point que même les startups puissent tenter l’expérience haha