L’essor de l’infrastructure de données pour l’IA

(felicis.com)

16 points par xguru 2024-11-25 | Aucun commentaire pour le moment. | Partager sur WhatsApp

« Nous sommes actuellement au début d’une nouvelle révolution industrielle. Au lieu de produire de l’électricité, nous produisons de l’intelligence artificielle… L’open source permet à toutes les entreprises de devenir des entreprises d’IA » - Jensen Huang

Extraire des informations à partir de documents n’est pas un concept nouveau. Mais l’IA générative (GenAI) nécessite de grands volumes de données de haute qualité
Les données sont essentielles à la fois pour l’entraînement et l’inférence, et leur périmètre ne se limite plus au texte et aux données tabulaires, mais s’étend à la vidéo, à l’image et à l’audio
On observe aussi une hausse des données spatiales, comme les images satellites et les données de capteurs robotiques
Quels sont les nouveaux domaines de la couche data que l’IA peut réinventer le plus immédiatement ?
- extraction et pipelines de données non structurées, Retrieval-Augmented Generation (RAG), curation des données, stockage des données, mémoire IA
Le but de cet article est d’analyser le paysage de l’infrastructure de données pour l’IA, de partager les dernières tendances et de parler des domaines d’innovation les plus prometteurs

État des lieux de l’infrastructure de données pour l’IA

Visualiser simplement le flux de données dans la chaîne de valeur de l’IA et expliquer le cheminement des données lors de l’entraînement et de l’inférence
La chaîne de valeur de l’infrastructure de données se divise en six grands domaines
- Sources de données (Sources)
- Ingestion et transformation des données (Ingestion & Transformation)
- Stockage (Storage)
- Entraînement (Training)
- Inférence (Inference)
- Services de données (Data Services)

Sources de données

Données applicatives : extraites de Salesforce, ServiceNow, etc.
Données temps réel : capteurs, fabrication, données de santé
Bases de données OLTP : données transactionnelles comme Oracle, MongoDB
Données synthétiques : données artificiellement générées, non collectées dans le monde réel (e.g., Mostly AI, Datagen, Tonic)
- Rentables et avantageuses du point de vue de la conformité des données
- Cependant, leur capacité limitée à représenter les anomalies statistiques restreint l’optimisation des performances des modèles
Données web : collecte de données publiques via le web scraping (e.g., Browse AI, Apify)
- Indispensables pour entraîner des modèles à grande échelle, mais les données publiques pourraient s’épuiser (estimation entre 2026 et 2032)

Ingestion et transformation des données

Les pipelines de données sont le processus par lequel les données sont transférées de leur source vers leur destination puis transformées dans un état exploitable pour l’analyse
- ETL/ELT : approche traditionnelle (traitement par lots, traitement en streaming)
- Feature engineering/pipelines : en ML, principalement pour le traitement des données tabulaires
- Pipelines de données non structurées : intègrent extraction, transformation et stockage pour organiser et conserver les données non structurées
Types de pipelines
- Traitement par lots : extraction et chargement des données à intervalles réguliers
- Traitement en streaming : chargement des données en temps réel (Kafka, Flink, etc.)
Outils et frameworks
- Streaming (Kafka, Confluent), moteurs de traitement (Databricks, Flink), outils d’orchestration (Astronomer, Dagster, Airflow, Prefect, etc.)
- Outils de labellisation : LabelBox, Scale AI, etc. (le labellisation des données de test est importante)
  - Batch : ETL (Airbyte, Fivetran), transformation (dbt, coalesce)
  - Traitement des données non structurées : Datavolo, Unstructured, LlamaIndex, etc.

Stockage des données

Approche traditionnelle : stockage dans un data warehouse
Données exploitées pour l’IA :
- Utilisation de data lakes et d’architectures lakehouse
- Stockage des embeddings de données via des bases de données vectorielles
Outils principaux :
- Data lakes : Databricks, Onehouse, Tabular, Amazon S3, GCS, etc.
  - Vector DB : Pinecone, Chroma, Milvus, Weaviete, etc.

Entraînement des modèles

Modes d’apprentissage :
- apprentissage supervisé, apprentissage non supervisé, apprentissage par renforcement
Processus d’entraînement des grands modèles de langage (LLM) :
- pré-entraînement : reconnaissance des motifs dans les données via apprentissage non supervisé
- apprentissage supervisé : optimisation des performances
- apprentissage par renforcement (RLHF) : amélioration des performances grâce au feedback humain
Validation et évaluation :
- évaluation de l’adéquation du modèle selon la précision, la précision de classification, la minimisation de la perte, etc.
Étape finale :
- tests de sécurité, gouvernance, vérification de la conformité
Outils principaux :
- Training : TensorFlow, Modular
  - Evaluation : neptune.ai, Weights & Biases
  - MLOps : Databricks, H2O.ai, DataRobot, Dataiku, DOMINO
  - Model : OpenAI, Cohere, Mistral AI, Runway

Inférence des modèles

Processus :
- entrée du prompt → tokenisation/vectorisation → traitement des données → génération de la sortie
Personnalisation :
- intégration entre base de données vectorielle et LLM
- génération de résultats uniques tenant compte du contexte utilisateur
Points de vigilance essentiels :
- sécurité des données, qualité du modèle, conformité
Outils principaux :
- Tooling : ANON, E2B
- Memory : MemGPT, cognee.ai
- RAG Framework : LangCHain, LlamaIndex, contextual.ai, databricks
- Agent/App : ChatGPT, Claude, character.ai, Decagon, NormAi

Services de données

Catégories :
- sécurité des données : contrôle d’accès, prévention des fuites de données (Rubrik, eureka, imperva, sentra, Dig, Cyera, Varonis, BigID)
- visibilité sur les données : surveillance de la qualité et des performances des pipelines de données (Anomalo, datologyai, OBSERVE, MonteCarlo, Cleanlab, Scale AI, onum, metaplane)
- catalogue de données : centralisation des métadonnées, organisation des actifs de données (atlan, Alation, Collibra, Informatica, Acryl Data, CastorDoc, select star, data.world)
Conclusion :
- plus les données sont bien organisées, plus la sécurité, la visibilité et la gestion sont efficaces

[Recomposition des données sous l’effet de l’IA]

Sous l’effet de l’IA, de l’innovation est observée dans les domaines suivants de l’infrastructure de données :

1. Pipelines de données non structurées pour les agents et applications IA

Essor des pipelines de données non structurées :
- demande croissante pour exploiter des données internes non structurées dans les applications d’IA conversationnelle et d’agents
- ces pipelines suivent un processus proche des pipelines de données traditionnels : extraction, transformation, indexation, stockage
Principales sources de données :
- texte PDF, bases de connaissances, images, etc.
- des données servant principalement des cas d’usage d’IA conversationnelle
Éléments différenciants :
- la différence avec les pipelines existants apparaît à l’étape de transformation :
  - chunking des données : division des données en petites unités
  - extraction de métadonnées : génération des données nécessaires à l’indexation
  - embeddings : conversion de chaque chunk en vecteur pour le stockage
Facteurs de réussite :
- le choix de la stratégie de chunking et du modèle d’embedding a un impact majeur sur la précision de la recherche de données
- émergence de modèles d’embedding spécialisés par domaine : par exemple pour le code ou les contenus juridiques
Usage de bases de données compatibles avec les vecteurs :
- stockage des données non structurées et conversion dans un format interrogeable
- personnalisation des LLM via RAG (Retrieval-Augmented Generation) et agents
Observations principales
- les équipes testent différentes stratégies de chunking
- les modèles d’embedding spécialisés par domaine se multiplient progressivement et contribuent à améliorer précision et performances
- les entreprises recherchent des outils pour convertir facilement les données dans des formats faciles à interroger

2. Retrieval-Augmented Generation (RAG)

Vue d’ensemble du RAG :
- le RAG est un workflow architectural qui utilise des données personnalisées pour améliorer l’efficacité des applications LLM
- Fonctionnement :
  - chargement des données puis « indexation » pour traiter les requêtes
  - la requête filtre les données les plus pertinentes à partir de l’index
  - le contexte filtré et la requête sont transmis au LLM avec le prompt pour générer une réponse
- permet d’activer les données comme partie intégrante de l’expérience produit
Principaux avantages du RAG :
- Fournir des informations à jour :
  - les LLM sont limités par leurs données de pré-entraînement, ce qui peut produire des réponses obsolètes ou inexactes
  - le RAG accède à des sources d’information externes pour fournir des réponses récentes
- Renforcement de la factualité :
  - le RAG compense les cas où les LLM ne fournissent pas d’informations exactes
  - il s’appuie sur une base de connaissances sélectionnée pour offrir des informations plus fiables
- Fourniture des sources :
  - il est possible d’ajouter citations et annotations aux réponses du LLM
  - amélioration de la confiance des utilisateurs

3. Curation des données pour améliorer les performances en entraînement et en inférence

Curation des données : processus de filtrage et d’organisation des jeux de données afin d’optimiser les performances de l’entraînement et de l’inférence
- Travaux principaux :
  - classification de texte
  - application de filtres NSFW
  - déduplication des données
  - optimisation de la taille des batches
  - optimisation des sources selon les performances
  - augmentation des données via des données synthétiques
Insights issus de la présentation de Meta Llama-3 :
- Curation des données d’entraînement :
  - « la curation de jeux de données vastes et de haute qualité est essentielle pour entraîner les meilleurs modèles de langage »
  - Meta a développé un pipeline de filtrage des données comprenant :
    - filtres heuristiques
    - filtres NSFW
    - déduplication sémantique
    - classifieur de texte prédisant la qualité des données
- Curation des données de fine-tuning :
  - « les plus fortes améliorations de la qualité du modèle sont obtenues en curant soigneusement les données et en examinant les annotations des annotateurs humains via plusieurs étapes d’assurance qualité »
Effets de la curation des données :
- selon l’équipe de recherche Meta AI :
  - la curation réduit jusqu’à 20 % du temps d’entraînement
  - améliore la précision sur les tâches aval
  - offre une voie d’amélioration des performances des modèles même dans un contexte d’épuisement des données Internet
Orientation future :
- pour l’entraînement et le fine-tuning, des filtres automatisés de haute qualité, la déduplication et les classifieurs deviennent importants
- des entreprises comme Datology AI travaillent à concrétiser cela

4. Stockage des données pour l’IA

Trois grandes tendances se dégagent dans la façon de stocker les données de l’IA :
- bases de données vectorielles
- essor des data lakes
- hausse des investissements dans les lakehouses
Importance des bases de données vectorielles :
- elles sont considérées comme l’une des technologies clés du boom de l’IA
- adaptées au stockage des embeddings de données (représentations numériques) :
  - conversion et stockage sous forme numérique de données non structurées (images, audio, vidéo, etc.)
  - prise en charge de la recherche sémantique (par ex. rechercher « dog » et obtenir « wolf » ou « puppy »)
- Formes de bases de données vectorielles :
  - bases de données vectorielles natives : conçues exclusivement pour le stockage de vecteurs
  - extensions de bases existantes : ajout de fonctionnalités vectorielles à des bases de données existantes
- Cas d’usage : personnalisation des LLM
  - stockage et recherche des données personnalisées d’une entreprise sous forme d’embeddings vectoriels
  - les agents IA s’appuient sur cette structure pour offrir des expériences sur mesure
Data lakes et lakehouses
- Essor des data lakes :
  - la plupart des entreprises stockent déjà leurs données à grande échelle dans des data lakes
  - leur utilisation est indispensable pour développer une IA personnalisée
- Architecture lakehouse :
  - fournit une architecture pour gérer et interroger efficacement les data lakes
  - organisation des données avec des formats de table ouverts :
    - Iceberg, Delta Lake, Hudi, etc.
  - amélioration de l’organisation des données et des performances des requêtes
- Rôle de Databricks :
  - Databricks a acquis Tabular, unifiant les équipes de développement de Delta Lake et d’Iceberg
  - cela complique l’entrée des concurrents et place l’entreprise à l’avant-garde des technologies lakehouse

5. Mémoire IA

Essor de la mémoire IA :
- depuis l’annonce de la fonction mémoire de ChatGPT, la mémoire IA est devenue un sujet central de discussion
- les systèmes d’IA standard manquent d’une mémoire épisodique robuste et de continuité entre les interactions :
  - les systèmes actuels sont dans une forme d’amnésie à court terme
  - cela limite le raisonnement séquentiel complexe et le partage de connaissances dans les systèmes multi-agents
Mémoire dans les systèmes multi-agents
- à mesure que les systèmes évoluent vers des architectures multi-agents, un système de gestion de mémoire entre agents devient nécessaire
- Exigences fonctionnelles :
  - prise en charge du stockage des souvenirs par agent et de l’accès entre sessions
  - intégration du contrôle d’accès et de la protection de la vie privée
  - mutualisation de la mémoire entre agents :
    - un agent peut exploiter l’expérience d’un autre agent
    - amélioration des capacités de décision
- besoin d’une mémoire hiérarchisée :
  - stockage hiérarchique selon la fréquence d’accès, l’importance et le coût
MemGPT : framework pionnier pour la gestion de la mémoire IA
- la vision de MemGPT : faire des LLM le moteur de l’évolution des systèmes d’exploitation (OS) de nouvelle génération
- Aperçu de l’architecture :
  - Types de mémoire :
    - mémoire de contexte principal : similaire à la mémoire principale (RAM)
    - mémoire de contexte externe : similaire à la mémoire disque / au stockage disque
Importance de la mémoire IA
- elle soutient la personnalisation, l’apprentissage et la réflexion (reflection), et est essentielle à l’évolution des applications IA
- la coopération entre agents et le partage de mémoire renforcent la capacité à résoudre des tâches complexes

Opportunités autour des workloads IA

Workloads IA et infrastructure de données :
- l’essor de la GenAI n’a pas transformé tous les aspects de l’infrastructure de données, mais l’émergence des technologies suivantes est particulièrement intéressante :
  - extraction et pipelines de données non structurées
  - Retrieval-Augmented Generation (RAG)
  - curation des données
  - stockage des données
  - mémoire IA
Stratégie d’investissement de Felicis
- Focus sur l’avenir de l’IA et de l’infrastructure de données :
  - investissement dans des startups liées à la couche data et infrastructure
  - principaux exemples d’investissement :
    - Datology : curation des données
    - Metaplane : data observability
    - MotherDuck : data warehouse serverless
    - Weights & Biases : outil de suivi des expérimentations
Potentiel de croissance du marché de l’IA
- Capacité d’expansion :
  - le marché de l’IA s’étend largement, des chatbots aux workflows multi-agents
  - nous n’en sommes qu’au début et de nombreux développements restent à venir
- Importance des solutions data :
  - les solutions data sont essentielles pour réussir les applications IA
  - de grandes entreprises de données destinées à soutenir les workloads IA devraient émerger