8 points par GN⁺ 2025-04-01 | 2 commentaires | Partager sur WhatsApp
  • L’infrastructure de données des entreprises évolue avec les avancées technologiques et rend possibles de nouveaux produits et services
  • L’infrastructure de données a évolué des data warehouses on-premise vers des data warehouses cloud et des data lakes
  • Récemment, avec l’essor rapide de l’IA, une nouvelle architecture appelée data lakehouse émerge, marquant l’entrée dans l’ère de Data 3.0
  • Le lakehouse réinvente le cœur de l’infrastructure de données des entreprises comme une plateforme unifiée, performante et interopérable prenant en charge divers usages, dont l’analytique et les workloads d’IA
  • Cela augmente fortement la probabilité de voir émerger de nouvelles entreprises d’infrastructure de données valant plusieurs milliards de dollars

Contexte de l’innovation lakehouse

  • Entre 2019 et 2024, les investissements des entreprises dans l’infrastructure de données ont doublé, passant d’environ 180 à 350 milliards de dollars
  • Les data warehouses et data lakes existants ne répondent pas complètement aux exigences de l’IA
  • Les workloads centrés sur l’IA imposent les exigences suivantes :
    • pouvoir traiter à la fois des données structurées, semi-structurées et non structurées
    • permettre un traitement des données en temps réel, multimodal et composable
    • assurer l’interopérabilité entre bases de données traditionnelles et bases de données vectorielles
  • Évolution de la demande des clients entreprises :
    • besoin de supprimer les duplications de données
    • complexité croissante de la gouvernance des données
    • volonté d’échapper au verrouillage fournisseur et besoin de flexibilité
    • difficulté à identifier des solutions adaptées à l’IA

Les open table formats rendent le lakehouse possible

  • Les open table formats (OTF) comme Delta Lake, Iceberg et Hudi constituent la base du lakehouse
  • Fonctions principales :
    • prise en charge des transactions ACID : garantie de cohérence et de fiabilité des données
    • prise en charge du traitement batch et streaming
    • souplesse des schémas et du partitionnement
    • possibilité de revenir à un état antérieur grâce au time travel
    • gestion évolutive des métadonnées

L’émergence du paradigme lakehouse

  • Le data lakehouse est une nouvelle architecture qui combine les performances du data warehouse et la flexibilité du data lake
  • Il s’impose comme une infrastructure de nouvelle génération pour les applications fondées sur l’IA, l’analytique temps réel et la business intelligence
  • Grandes entreprises et startups accélèrent leur transition vers le lakehouse, et un nouveau marché se forme autour de ce mouvement

Thèse 1 : des pipelines intelligents en temps réel grâce à l’ingestion et à la transformation centrées sur l’IA

  • Les outils ETL traditionnels sont inefficaces à l’échelle de l’IA
  • Prefect, Windmill et dltHub prennent en charge des pipelines de données et de l’orchestration basés sur le code
  • Des outils comme Tobiko offrent l’automatisation SQL, le data lineage, le suivi des dépendances, etc.
  • Le Model Context Protocol (MCP) d’Anthropic fournit une interface standardisée pour préserver le contexte des workflows d’IA
  • Apache Kafka et Flink apportent des capacités de messagerie et de traitement en streaming essentielles à l’entraînement et à l’inférence en temps réel
  • Chalk AI contribue à des décisions rapides grâce à une plateforme d’inférence temps réel
  • La couche de métadonnées s’impose à l’ère de l’IA comme une importante source of truth

Thèse 2 : l’importance stratégique croissante de la couche de métadonnées

  • Les métadonnées ne sont plus de simples informations, mais désormais une couche centrale qui pilote l’action
  • Les open table formats comme Iceberg, Delta Lake et Hudi mènent l’innovation autour des métadonnées
  • Des catalogues natifs lakehouse comme Datastrato et Vakamo font leur apparition
  • DataHub d’Acryl Data prend en charge l’accès aux données et la gouvernance pour les humains comme pour les agents IA
  • OpenHouse, Apache Amoro et Ryft fournissent un Control Plane centré sur les métadonnées
  • Flarion.io et Greybeam développent des outils d’optimisation des performances sur des couches autres que le stockage

Thèse 3 : évolution du computing et des moteurs de requête

  • Avec la diffusion du lakehouse, l’architecture historiquement centrée sur une plateforme unique évolue vers une architecture modulaire
  • Au-delà de Snowflake et Databricks, des solutions spécialisées comme DuckDB, ClickHouse et Druid progressent
  • Daft, typedef, Mooncake et Bauplan développent de nouveaux frameworks de calcul optimisés pour l’IA
  • L’émergence de moteurs de requête optimisés pour l’IA et de plateformes de calcul fédéré établit une nouvelle référence pour le traitement des données

Thèse 4 : la frontière entre data engineering et software engineering s’estompe

  • Les applications centrées sur l’IA font évoluer le secteur vers des développeurs généralisés dotés de compétences data
  • dbt Labs introduit dans le développement data des pratiques de software engineering comme le versioning, les tests et le CI/CD
  • Gable facilite la création de pipelines de données grâce à une interface conviviale
  • Temporal et Inngest apportent fiabilité et visibilité aux workflows distribués complexes
  • Les contributions à l’open source augmentent fortement, et la croissance des projets liés à la data sur GitHub dépasse celle des logiciels généralistes
  • L’adoption de l’open source progresse pour mieux bénéficier du support des LLM
  • La convergence entre IA et engineering centré sur les données transforme en profondeur la structure des équipes et les modes de développement

2 commentaires

 
halfenif 2025-04-01

Quelle est la suite du Lakehouse ?

Dataland ?

 
yangeok 2025-04-01

J’espère que les coûts baisseront au point que même les startups puissent tenter l’expérience haha