IA et dernières tendances

(mattturck.com)

21 points par xguru 2021-11-01 | 3 commentaires | Partager sur WhatsApp

Le paysage Data & IA 2021 résumé en une image, avec des explications détaillées

Perspective macro : comprendre la complexité de l’écosystème
Financement, IPO et M&A
The 2021 Landscape
Principales tendances de l’infrastructure data

→ Data Mesh

→ Une année chargée pour les DataOps

→ Désormais, le temps réel

→ Metrics Store

→ Reverse ETL

→ Data Sharing

Principales tendances de l’analytics & de l’IA d’entreprise

→ Feature Store

→ L’essor du ModelOps

→ Génération de contenu par l’IA

→ L’évolution de la stack IA chinoise

"Perspective macro : comprendre la complexité de l’écosystème"

Pourquoi les entreprises de la data et de l’IA continuent-elles d’apparaître, et jusqu’à quand cela va-t-il durer ?
La tendance de fond, c’est que « toutes les entreprises deviennent non pas de simples sociétés logicielles, mais des entreprises de données »
Dans beaucoup d’organisations, la « donnée » désignait les données transactionnelles stockées dans un SGBDR et quelques tableaux de bord destinés à analyser ce qui s’était passé au cours des derniers mois
Mais désormais, les entreprises avancent vers un monde où « les données et l’intelligence artificielle » sont intégrées dans « les processus internes et les applications externes » pour « l’analyse et les opérations »
Cette évolution fondamentale est rendue possible par les progrès remarquables des technologies de base, en particulier la relation symbiotique (Symbiotic Relationship) entre « l’infrastructure data et le machine learning / l’IA »

→ Les deux domaines collaborent de plus en plus étroitement

→ La première phase a été « l’ère du big data » du début des années 2010

→ En découvrant que l’application de ce big data à des algorithmes d’IA anciens de plus de dix ans (deep learning) pouvait produire des résultats remarquables, l’enthousiasme autour de l’IA s’est envolé

→ En conséquence, l’IA est devenue un moteur majeur du développement de l’infrastructure data

→ Si toutes les applications sont construites sur l’IA, il faudra une meilleure infrastructure data

À l’approche de 2021, les termes Big Data et IA ont tous connu des hauts et des bas, et aujourd’hui on entend beaucoup parler d’« Automation », mais au fond il s’agit du même mégatrend
L’accélération récente dans la data et l’IA peut être retracée à la croissance des cloud data warehouses de ces dernières années
Le data warehouse résout une question très fondamentale mais essentielle de l’infrastructure data : « où stocker les données »

→ On pourrait penser que, plus de 15 ans après le début de la révolution Big Data, ce problème a été résolu, mais ce n’est pas le cas

→ Avec le recul, le succès initial de Hadoop était en partie trompeur sur cet aspect de stockage

→ Il a été important pour faire passer l’idée qu’il était possible d’extraire une vraie valeur d’énormes volumes de données, mais sa complexité technique a limité son usage à quelques entreprises et freiné sa pénétration du marché

Les cloud data warehouses actuels (Snowflake, Redshift, BigQuery) et les lakehouses (Databricks)

→ coûtent moins cher

→ n’exigent pas non plus un très grand nombre de profils techniques

→ et permettent de stocker d’énormes volumes de données d’une manière réellement utile

Autrement dit, c’est seulement maintenant que l’on peut vraiment stocker et traiter du Big Data. C’est un tournant majeur, et cela s’est révélé être un major unlock pour les autres segments de la data et de l’IA

→ Premièrement, le data warehouse augmente la taille de marché de tout l’écosystème data et IA. Grâce à sa facilité d’usage et à sa tarification à l’usage, il devient la gateway par laquelle toutes les entreprises deviennent des entreprises de données

→ Deuxièmement, le data warehouse rend utilisable l’écosystème d’outils qui l’entoure.

⇨ ETL, ELT, reverse ETL, outils de qualité des données centrés sur le warehouse, metrics store, augmented analytics, etc.

⇨ « Modern Data Stack » ( https://fr.news.hada.io/topic?id=3055 à voir )

⇨ L’émergence de la stack data moderne a fait naître de nombreuses startups et concentré les investissements (DBT, Fivetran...)

→ Troisièmement, comme le data warehouse résout la couche de stockage la plus fondamentale, les entreprises peuvent se concentrer sur des projets à plus forte valeur dans la hiérarchie de leurs besoins data

⇨ Maintenant que les données sont stockées, il devient facile de se concentrer sur des tâches comme le traitement temps réel, l’augmented analytics ou le machine learning

⇨ Cela accroît à son tour la demande du marché pour toutes sortes d’outils et de plateformes data / IA

⇨ Davantage de besoins clients créent un flywheel qui génère encore plus d’innovation chez les entreprises data / ML

« Le data warehouse est un signal majeur pour l’ensemble de l’industrie de la donnée, et à mesure qu’il grandit, tout le reste grandit avec lui »

La bonne nouvelle pour l’industrie data / IA, c’est que les data warehouses et les lakehouses connaissent une croissance extrêmement rapide et massive

→ Snowflake a affiché une croissance de 103 % en glissement annuel lors de son annonce du T2, avec un Net Revenue Retention impressionnant de 169 % (ce qui signifie que les clients existants consomment de plus en plus)

→ L’entreprise prévoit 12 000 milliards de wons de chiffre d’affaires en 2028 ($10B)

Certains vont jusqu’à dire qu’à l’avenir, chaque entreprise possédera au moins un cloud data warehouse

"The Titanic Shock: Snowflake vs Databricks"

Snowflake est récemment devenu le porte-étendard du secteur de la data. Son IPO de septembre 2020 a été la plus importante de l’histoire des IPO logicielles. Au moment où ces lignes sont écrites, c’est une entreprise valorisée 95 Md$
Databricks s’impose comme un nouveau rival dans l’industrie. Le 31 août, l’entreprise a bouclé un financement de 1,6 Md$ sur la base d’une valorisation de 38 Md$
Jusqu’à récemment, les deux entreprises appartenaient à des segments assez différents du marché (et ont d’ailleurs longtemps été des partenaires étroits)
Snowflake, en tant que cloud data warehouse, est une base de données destinée à stocker et traiter de grandes quantités de données structurées (bien adaptées à un stockage en lignes et colonnes)

→ Les entreprises l’utilisent en connectant des outils de BI pour répondre à des questions sur les performances passées et actuelles (« quelle région a connu la plus forte croissance au trimestre dernier ? »)

→ Comme les autres bases de données, il s’appuie sur SQL, ce qui lui donne des centaines de millions d’utilisateurs potentiels

Databricks vient d’un autre coin de l’univers data

→ L’entreprise a démarré en 2013 en commercialisant le projet open source Spark

→ Celui-ci a été conçu, de manière générale, pour traiter des données non structurées (texte, audio, vidéo)

→ Les utilisateurs de Spark s’en servaient pour construire des « data lakes » capables d’accueillir n’importe quelles données sans se soucier de leur structure ou de leur organisation

→ L’usage principal des data lakes consistait à entraîner des applications ML / IA afin d’aider les entreprises à répondre à des questions sur l’avenir (« quels clients ont le plus de chances d’acheter au prochain trimestre ? »), autrement dit de l’analyse prédictive

→ Databricks a créé Delta pour prendre en charge les data lakes, et ML Flow pour prendre en charge le ML / l’IA

Mais récemment, les deux entreprises ont commencé à converger l’une vers l’autre

→ Databricks a ajouté des fonctions de DW à son data lake, permettant aux analystes d’exécuter des requêtes SQL standard et de connecter des outils comme Tableau ou MS PowerBI. Cela a donné naissance à ce qu’elle appelle un « Lakehouse »

→ Databricks rend le data lake plus proche d’un data warehouse, tandis que Snowflake a publié en preview une fonction de stockage de données non structurées (audio, vidéo, PDF, images, etc.) pour faire ressembler son data warehouse à un data lake

→ Databricks ajoute la BI à ses capacités IA, et Snowflake ajoute l’IA à ses capacités compatibles BI

Au final, Snowflake et Databricks veulent tous les deux devenir « The center of all things data »

→ Un seul dépôt pour stocker toutes les données. Il conserve à la fois les données structurées et non structurées, et permet de réaliser toutes les analyses, de l’historique jusqu’aux prévisions futures

Bien sûr, il existe de nombreux concurrents (les hyperscalers cloud comme AWS et GCP)
Snowflake et Databricks sont à la fois amis et rivaux des fournisseurs cloud (Friend and Foe)

→ Snowflake, qui s’est développé sur AWS, est en train de s’étendre à d’autres clouds

→ Databricks entretient un partenariat solide avec Microsoft, mais aide aussi à éviter le vendor lock-in grâce à ses capacités multi-cloud

→ Ces dernières années, les critiques ont souvent souligné que les marges des modèles économiques de Snowflake et Databricks dépendaient de la tarification des fournisseurs cloud

Au cours des cinq prochaines années, la danse entre les fournisseurs cloud et les géants de la donnée sera un récit déterminant

"Bundling, Unbundling, Consolidation?"

Compte tenu de l’ascension de Snowflake et Databricks, est-ce le début de la vague de consolidation que le secteur attendait ?
Dans la donnée / l’IA, une « consolidation fonctionnelle » est bien en cours
Mais tout le monde fait pareil. Personne ne veut rester une entreprise à produit unique ; chacun veut bundler davantage et proposer plus de fonctionnalités

→ Confluent, introduite en Bourse en 2021/6, vise elle aussi à aller au-delà de la donnée en temps réel pour « unifier le traitement des données en mouvement et des données statiques »

→ Dataiku met l’accent sur le bundling, au sein d’une seule plateforme, de la préparation des données jusqu’au DataOps, au MLOps, à la visualisation et à l’AI explainability

L’émergence de la modern data stack est un autre exemple de consolidation fonctionnelle

→ En son cœur se trouve une véritable « alliance » d’entreprises (principalement des startups) reliant l’extraction des données, le data warehouse et la BI

Pour les utilisateurs de ces technologies, le bundling et la convergence seront largement bien accueillis

→ À mesure qu’il gagne en maturité, le secteur de la donnée doit évoluer au-delà de clivages technologiques comme « transactionnel vs analytique », « batch vs temps réel » ou « BI vs IA »

Les entreprises continueront à travailler avec plusieurs vendors / plateformes / outils afin de composer la combinaison la plus adaptée à leurs besoins
La raison principale est que « le rythme de l’innovation est trop explosif »

→ De nouvelles startups continuent d’émerger, les grandes entreprises tech créent en interne des outils data/IA puis les passent en open source, et chaque semaine voit apparaître quelque chose de nouveau sur toutes les technologies et tous les produits existants

Alors que les vendors de big data warehouse et de data lake poussent à la centralisation de toutes les données, de nouveaux frameworks comme le « Data Mesh » apparaissent aussi

→ Une approche distribuée dans laquelle différentes équipes prennent chacune leurs responsabilités

En dehors de la consolidation fonctionnelle, il est difficile de savoir s’il y aura des opérations de M&A

→ Parmi les rumeurs favorites, on entend aussi que « Microsoft voudrait acquérir Databricks »

"Financings, IPOs, M&A: A Crazy Market"

Quiconque suit un peu le marché des startups le sait : le marché est devenu fou
Comme l’an dernier, la donnée et le ML/IA restent cette année encore les catégories d’investissement les plus chaudes
Entreprises prévues pour une introduction en Bourse

→ UiPath : entreprise de RPA et d’automatisation par l’IA

→ Confluent : Kafka

→ C3.ai : plateforme d’IA

→ Couchbase : base de données no-SQL

→ SentinelOne : plateforme de sécurité des endpoints automatisée par IA

→ TuSimple : camions autonomes

→ Zymergen : biofabrication

→ Recursion : entreprise de découverte de médicaments pilotée par l’IA

→ Darktrace : cybersécurité basée sur l’IA

Avec la hausse des SPAC, les entreprises technologiques à la pointe du marché de l’IA devraient en profiter (conduite autonome, biotech, etc.)

"The 2021 MAD Landscape & What’s New this Year"

Sur la carte de cette année, « Analytics and Machine Intelligence » a été scindé en « Analytics » et « Machine Learning & Artificial Intelligence »
Nouvelles catégories ajoutées

→ Infrastructure

⇨ Reverse ETL : des produits qui renvoient les données du data warehouse vers les applications SaaS

⇨ Data Observability : une composante du DataOps centrée sur la résolution des problèmes de qualité des données à partir de la lineage des données

⇨ Privacy & Security : la confidentialité des données devient de plus en plus importante, et de nombreuses startups apparaissent dans cette catégorie

→ Analytics

⇨ Data Catalogs & Discovery : la catégorie la plus active des 12 derniers mois. Elle permet aux utilisateurs de trouver et de gérer les jeux de données qu’ils recherchent

⇨ Augmented Analytics : les outils de BI exploitent les progrès du NLG/NLP pour générer automatiquement des insights et rendre les données accessibles à des publics non techniques

⇨ Metrics Stores : un dépôt central pour les principaux indicateurs métier. Une nouvelle arrivée dans la data stack

⇨ Query Engines

→ Machine Learning and AI

⇨ La catégorie MLOps est subdivisée en : Model Building, Feature Stores, Deployment and Production

→ Open Source

⇨ Ajout de Format, Orchestration, Data Quality & Observability

Autrefois, il y avait surtout des startups de série C ou au-delà, ou des entreprises cotées ; cette année, beaucoup d’entreprises de série A ou au stade seed ont été ajoutées

"Principales tendances de l’infrastructure data"

2020

→ La Modern Data Stack devient mainstream

→ ETL vs ELT

→ Automatisation de l’ingénierie des données ?

→ La montée en puissance des data analysts

→ Les data lakes et les data warehouses vont-ils fusionner ?

→ Une complexité toujours non résolue

2021

→ Data Mesh

→ Une année chargée pour le DataOps

→ Désormais, c’est le temps réel

→ Metrics Stores

→ Reverse ETL

→ Data Sharing

[Data Mesh]

Le concept vient de l’article de Zhamak Dehghani publié en 2019, « How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh »
Il a gagné beaucoup d’élan entre 2020 et 2021
Le concept de data mesh est avant tout une idée organisationnelle
Jusqu’ici, la méthode standard pour construire l’infrastructure et les équipes data était la centralisation. Une grande plateforme gérée par une seule équipe data répondait aux besoins métiers
Cela présente de nombreux avantages, mais crée aussi des problèmes comme des goulots d’étranglement
L’idée de la décentralisation est de créer des équipes data indépendantes, chacune responsable de son domaine, et de fournir les données « comme un produit » aux autres personnes de l’organisation

→ C’est similaire au concept de microservices en ingénierie logicielle

Cela recouvre plusieurs significations, mais

→ si cela devient possible, ce sera une grande opportunité pour les jeunes entreprises qui construisent des outils mission-critical pour une data stack distribuée

Starburst, moteur de requêtes SQL permettant les requêtes fédérées et l’analyse sur plusieurs dépôts, s’est repositionné comme un « moteur analytique pour le data mesh »
Les moteurs d’orchestration qui gèrent des pipelines complexes (Airflow, Prefect, Dagster) deviendront eux aussi encore plus mission-critical
Le suivi des données dans les systèmes de stockage et de pipeline devient encore plus indispensable du point de vue de la conformité et de la gouvernance, ce qui renforce le besoin de data lineage (OpenLineage, DataKin)

[Une année chargée pour le DataOps]

Le concept de DataOps a flotté pendant plusieurs années avant de réellement s’activer récemment
Il en existe plusieurs définitions

→ Le DevOps du monde des données

→ Tout ce qui est nécessaire pour construire et maintenir des pipelines de données, trouver les bons jeux de données via un catalogue de données, et permettre aux producteurs comme aux consommateurs de données d’effectuer le travail dont ils ont besoin

Quoi qu’il en soit, comme DevOps, c’est fondamentalement une « combinaison de méthodologies, de processus, de personnes, de plateformes et d’outils »
Dans un contexte plus large, les « outils et pratiques de data engineering » restent très en retard sur le niveau d’automatisation du software engineering
Plus les données/l’IA deviennent importantes, plus de meilleurs outils et pratiques sont nécessaires
Tout le monde veut devenir le « DataDog du monde des données » (et DataDog est effectivement parfois utilisé pour le DataOps, mais il reste fondamentalement issu du software engineering)
Il existe divers sous-domaines comme la data observability, le data lineage, la data quality, la Data Reliability Engineering, le data access & governance, etc.

[C’est désormais le temps réel]

Les données « temps réel » ou « streaming » sont des données traitées et consommées immédiatement après leur création
À l’opposé du « batch », paradigme dominant des infrastructures de données jusqu’à présent
Le traitement des données en temps réel est un sujet brûlant depuis le début de l’ère du big data il y a 10 à 15 ans

→ En particulier, sa vitesse de traitement a été un facteur clé du succès de Spark face à Hadoop MR

Mais pendant plusieurs années, c’était un marché « sur le point d’exploser » sans qu’il n’explose réellement
L’énorme succès de l’IPO de Confluent a prouvé que les sceptiques avaient tort
Et au-delà de Confluent, tout l’écosystème de la donnée temps réel s’est accéléré
Les « analyses en temps réel » montrent notamment beaucoup d’activité

→ ClickHouse, créé par le russe Yandex, a fondé une société aux États-Unis et levé 50 M$

→ Imply, plateforme d’analytique temps réel basée sur l’open source Druid, a levé 70 M$

[Metrics Stores]

Ces dernières années, la quantité de données en entreprise ainsi que la fréquence et la complexité de leur usage ont augmenté
Avec cette complexité accrue, les problèmes causés par les incohérences de données ont eux aussi augmenté
Les métriques peuvent facilement se désaligner au moindre changement de dimension, de définition ou pour d’autres raisons
Les données ne sont utiles que lorsqu’elles sont exactes et fiables pour les équipes qui les utilisent
Les tentatives de centralisation des métriques ont conduit au développement de solutions internes comme Minerva d’AirBnB, avec l’idée « Define Once, Use Anywhere »
Il s’agit de standardiser la définition des principaux indicateurs métier et de toutes les dimensions, puis de fournir aux parties prenantes des jeux de données exacts et exploitables sur la base de ces définitions
En s’appuyant sur des définitions centralisées des métriques, on renforce la confiance dans les données et on donne à chacun un accès transverse aux métriques
Un metrics store

→ se place au-dessus du data warehouse et informe toutes les applications downstream, y compris les plateformes BI, les outils d’analytics et de data science, ainsi que les applications opérationnelles

→ garantit la cohérence des données, de sorte que lorsque la logique métier change, elles sont mises à jour automatiquement

On trouve des startups comme Transform, Trace et Supergrain

[Reverse ETL]

Dans la modern data stack, le Reverse ETL est devenu une catégorie à part entière
Il consiste à renvoyer les données du data warehouse vers des applications métier comme les CRM, les systèmes d’automatisation marketing ou les plateformes de support client
L’objectif est de permettre aux outils opérationnels concrets d’exploiter des données récentes enrichies par d’autres applications métier
De nombreux outils de Reverse ETL ont levé des fonds : Census, Rudderstack, Grouparoo, Hightouch, Headsup, Polytomic

[Data Sharing]

La montée du partage et de la collaboration autour des données, non seulement au sein des entreprises mais aussi à l’échelle des organisations
Les entreprises veulent partager des données avec un écosystème de fournisseurs, partenaires et clients pour la visibilité de la supply chain, l’entraînement de modèles de machine learning ou le partage de plans de go-to-market
Le partage de données inter-entreprises est un thème central chez les fournisseurs de « data cloud »
En mai 2021, Google a lancé Analytics Hub. Il permet de partager données/insights/tableaux de bord/modèles de machine learning en interne et en externe. Google a aussi dévoilé DataShare pour les services financiers
Le même jour que Google, Databricks a présenté Delta Sharing, un protocole open source de partage de données entre organisations
En juin 2021, Snowflake a dévoilé la fonction Secure Data Sharing via sa data marketplace
Il existe des startups comme Habr et Crossbeam

« Principales tendances du ML/IA »

2020

Boom time for data science and machine learning platforms (DSML)
ML getting deployed and embedded
The Year of NLP

2021

Feature Stores
The rise of ModelOps
AI content generation
The continued emergence of a separate Chinese AI stack
La recherche en intelligence artificielle continue de progresser rapidement

→ DeepMind Alphafold, OpenAI GTP-3/DALL-E/CLIP

[Feature Stores]

Depuis qu’Uber a présenté l’idée en 2017, ils deviennent de plus en plus courants dans la stack machine learning

→ Des entreprises comme Tecton, Rasgo, Logical Clocks et Kaskada ont réalisé des tours de financement

En machine learning, les features (variables ou attributs) sont des propriétés ou caractéristiques individuellement mesurables, représentées sous forme de colonnes dans des extraits de données

→ Les modèles de machine learning peuvent utiliser d’une seule feature à plusieurs millions

Avec l’usage de modèles et de pipelines de plus en plus complexes, ce travail s’est fait de manière de plus en plus ad hoc
Les ingénieurs et les data scientists passent souvent beaucoup de temps à réextraire des features à partir des données brutes
L’écart entre l’environnement de production et l’environnement d’expérimentation peut provoquer des incohérences dans les performances ou le comportement des modèles
Les organisations se préoccupent aussi de la gouvernance et de la reproductibilité des modèles de machine learning, et le cloisonnement des features rend cela encore plus difficile
Les feature stores favorisent la collaboration et éliminent ces silos
Ils réduisent la complexité et standardisent/réutilisent les features en fournissant une source d’information unique pour l’entraînement comme pour la production
Ils stockent des features sélectionnées au sein de l’organisation, exécutent des pipelines de données qui transforment les données brutes en valeurs de features et fournissent un accès rapide via API

[The Rise of ModelOps]

Beaucoup d’entreprises ont compris qu’il était difficile de faire passer les modèles du stade expérimental à la production, et que les modèles en usage nécessitent une surveillance continue ainsi qu’un réentraînement
Le MLOps applique les bonnes pratiques du DevOps. Il simplifie le développement et le déploiement rapides et continus de modèles à grande échelle
Le ModelOps est un sur-ensemble du MLOps. Il vise des opérations plus rapides à toutes les étapes, de l’entraînement à la production, pour tous les modèles d’IA, y compris le ML
Le ModelOps couvre à la fois les outils et les processus, intègre les processus, standardise l’orchestration des modèles et fournit un référentiel centralisé pour tous les modèles, avec des fonctions de gouvernance complètes
Un ModelOps bien mis en œuvre fournit un système unifié pour déployer, surveiller et gérer tous les modèles, réduisant ainsi les risques et renforçant la conformité

[AI Content Generation]

L’IA a fortement gagné en maturité ces dernières années et est utilisée pour créer du contenu sur tous types de médias, y compris le texte, les images, le code et la vidéo
Publication d’OpenAI GPT-3. GitHub a dévoilé GitHub Copilot, propulsé par OpenAI Codex
Si OpenAI se concentre sur des modèles centrés sur l’anglais, de nombreuses autres entreprises travaillent sur d’autres langues

→ Aleph Alpha en Allemagne, AI21 Labs, PanGu de Huawei, HyperCLOVA de Naver

[Émergence continue d’une pile IA chinoise distincte]

La Chine continue de se développer comme puissance mondiale de l’IA, portée par son propre marché, le plus grand producteur de données au monde
TikTok, l’un des meilleurs algorithmes de recommandation, a réussi en Occident, marquant la première diffusion réelle d’une technologie grand public d’IA chinoise
Alors que la Chine affiche son ambition de dominer l’IA d’ici 2030 et bénéficie d’un soutien financier, une pile technologique distincte commence à émerger dans le pays, jusqu’ici encore appuyé sur des outils occidentaux

3 commentaires

ehanmire 2021-11-11

Je tire de bons enseignements de plusieurs passages et cela me fait beaucoup réfléchir

Merci~

J’ai brièvement pensé que les processus et les données étaient comme les os et le sang,

que le sang se rassemblerait quelque part, que des vaisseaux apparaîtraient et que des tissus se formeraient,

mais l’étrange analogie qui m’est soudain venue à l’esprit est que

ce n’est pas le mouvement qui permet à une entreprise de gagner de l’argent.

sungwoo 2021-11-08

Merci de toujours organiser avec clarté des informations de très haut niveau.

xguru 2021-11-07

The paysage 2020 de la data et de l’IA https://fr.news.hada.io/topic?id=2979