Nouvelle architecture 2.0 pour l’infrastructure de données moderne

(future.a16z.com)

25 points par xguru 2022-04-25 | 4 commentaires | Partager sur WhatsApp

Mise à jour 2.0 de l’article paru en 2020

Changelog

Deux domaines nouvellement en très forte croissance
- Des outils pour soutenir les processus et workflows de données essentiels, comme la découverte des données, l’observabilité et l’audit des modèles de ML
- De nouvelles applications, comme les data workspaces, le reverse ETL et les frameworks d’applications ML, qui permettent aux équipes data et aux utilisateurs métiers de créer de la valeur à partir des données
Nouveautés ajoutées à la BI
- Metrics Layer : nouveaux outils spécialisés comme Transform et Supergrain. Et dbt s’étend aussi dans cette direction
- Reverse ETL : Hightouch, Census
- Data Workspace : Hex, Mode, Deepnote
- Data Discovery & Observability : Monte Carlo et Big Eye ont levé d’importants financements. Il existe aussi de nombreuses entreprises au stade seed comme Select Star, Metaphor, Stemma, Secoda et Castor
Nouveautés ajoutées au Multimodal Data Processing
- Une approche autour de l’architecture Lakehouse
- La couche de stockage a été améliorée : Delta/Iceberg/Hudi sont davantage adoptés et commercialisés.
- L’adoption du stream processing augmente : traitement analytique des données en temps réel. Materialize/Upsolver
Nouveautés ajoutées à l’IA & ML
- Intégration autour d’une approche centrée sur les données
  - Étiquetage des données : Scale, Labelbox. L’intérêt pour le Closed-loop Data Engine augmente
  - Adoption croissante des feature stores : Tecton, Feast, Databricks
  - Solutions de ML low-code : Continual, MindsDB, DataRobot, AutoML, Roboflow, Akkio
- L’usage de modèles préentraînés devient la norme, surtout en NLP. OpenAI & Hugging Face
- Le MLOps mûrit, et les cas d’usage comme les budgets se concentrent de plus en plus sur le ML Monitoring
- L’attention se concentre aussi sur la manière d’intégrer les modèles ML dans les applications : API prêtes à l’emploi (OpenAI), bases de données vectorielles (Pinecone), etc.

Hypothèse de la plateforme de données

Au cours de l’année écoulée, la stack d’infrastructure data a vu ses systèmes centraux et ses outils de support se diffuser rapidement. Pour expliquer pourquoi cela se produit, l’idée de « plateforme de données » est introduite
Qu’est-ce qu’une plateforme ?
- Dans l’écosystème data, le mot « plateforme » est surutilisé. Il sert soit à désigner l’ensemble de la stack technique au sein des équipes internes, soit est employé par des fournisseurs qui vendent des suites de produits faiblement intégrées
- En logiciel, une plateforme désigne quelque chose sur lequel d’autres développeurs peuvent construire
- La caractéristique qui définit une plateforme, du point de vue industriel, est l’« interdépendance » entre un fournisseur de plateforme influent (techniquement et économiquement) et un écosystème de développeurs tiers
Qu’est-ce qu’une plateforme de données ?
- Historiquement, la stack data ne correspondait pas à la définition d’une plateforme
- Il existait une interdépendance entre les fournisseurs d’ETL, de data warehouse et de reporting, mais le modèle d’intégration tendait à être du 1:1 plutôt que du 1:n. Les services professionnels compensaient souvent cela
- D’après de nombreuses conversations avec des professionnels de la data, cela pourrait commencer à changer
- L’hypothèse de la plateforme soutient que le « backend » de la stack data (de l’ingestion au stockage, au traitement puis à la transformation des données) commence à se consolider chez certains fournisseurs cloud
- En conséquence, les jeux de données clients sont collectés dans un ensemble standard de systèmes, et les fournisseurs font en sorte que ces données soient facilement accessibles à d’autres développeurs (via des principes de conception de base chez Databricks, des standards SQL et des API comme Snowpark de Snowflake)
- De la même manière que les développeurs frontend ont bénéficié d’un point d’intégration unique, ils peuvent désormais accéder à des données intégrées sans se soucier de l’infrastructure sous-jacente
- On commence aussi à voir des systèmes d’entreprise traditionnels, comme la finance ou l’analytique produit, être redéveloppés avec une architecture « warehouse-native »
- Cela ne veut pas dire que les bases OLTP ou d’autres technologies backend importantes vont bientôt disparaître
- Mais l’intégration native avec les systèmes OLAP peut devenir un composant central du développement applicatif
- De plus en plus de logique métier et de fonctionnalités applicatives pourraient évoluer vers ce modèle
L’émergence des data apps ?
- Cette hypothèse de plateforme de données laisse encore beaucoup de place à la discussion
- Quoi qu’il en soit, nous voyons déjà se multiplier, au-dessus de ces plateformes de données, des solutions SaaS verticales complexes sous forme de couche horizontale
- Des entreprises comme Snowflake et Databricks deviendront des éléments stables de cette stack data
  - Grâce à d’excellents produits, des équipes commerciales performantes et un modèle de déploiement avec très peu de friction
  - Parce qu’une fois que les clients construisent ou intègrent des applications data sur ces systèmes, il devient peu rationnel d’en changer
- Le fait que tant de produits d’infrastructure data aient été créés ces dernières années et continuent d’apparaître pourrait être lié aux plateformes
- L’hypothèse de la plateforme a le pouvoir de rendre les dynamiques concurrentielles plus prévisibles
  - À grande échelle, les plateformes ont énormément de valeur
  - Les fournisseurs de systèmes data centraux cherchent peut-être à s’imposer agressivement non pas pour le budget actuel, mais pour obtenir un statut de plateforme à long terme
- Les valorisations élevées des entreprises d’ingestion et de transformation de données, ainsi que de celles du Metrics Layer ou du Reverse ETL, peuvent paraître plus rationnelles si on les considère comme des éléments clés des nouvelles plateformes de données
Regarder vers l’avenir
- Nous n’en sommes encore qu’aux premiers stades de la définition des plateformes de données analytiques et opérationnelles, et les pièces qui les composent continuent d’évoluer
- Il est donc plus utile d’utiliser cette idée comme une métaphore que comme une définition stricte
- Mais cette hypothèse est aussi utile comme outil pour filtrer le signal du bruit et pour comprendre pourquoi le marché évolue de cette manière
- Les équipes data disposent aujourd’hui de plus d’outils, de ressources et d’élan organisationnel qu’à n’importe quel moment depuis l’invention de la base de données
- Il est très enthousiasmant d’observer si une couche applicative va évoluer au-dessus de cette nouvelle plateforme

4 commentaires

sungwoo 2023-01-10

Est-ce que vous mettrez aussi à jour les vidéos des cours YouTube que vous publiiez auparavant..? ^^;
https://youtube.com/watch/…

Merci toujours~

xguru 2023-01-10

Comme je faisais aussi de la production vidéo puis que j’ai arrêté, j’ai l’impression de ne plus y arriver du tout maintenant, snif.
Il sera probablement difficile de publier une mise à jour dans un avenir proche.

sungwoo 2023-01-10

Ah. Même avec ce que vous aviez partagé auparavant, cela m’a déjà beaucoup aidé.
J’en profite pour vous remercier.

xguru 2022-04-25

Il s’agit d’une version mise à jour de l’article Une nouvelle architecture pour l’infrastructure de données moderne.

J’allais le publier après l’avoir mis en forme, mais j’ai vu que Techit avait également traduit intégralement cette version 2.0. N’hésitez pas à la consulter également.
L’architecture moderne des données et l’ère de la nouvelle architecture

Nouvelle architecture 2.0 pour l’infrastructure de données moderne

Changelog

Hypothèse de la plateforme de données

À lire aussi

4 commentaires