La stack IA moderne : principes de conception pour l’avenir des architectures IA d’entreprise

xguru · 2024-01-29T11:05:01+09:00

Définition de la stack IA moderne Couche 1 : calcul et modèles de base - inclut les modèles de base eux-mêmes ainsi que l’infrastructure nécessaire pour entraîner, affiner, optimiser et déployer les modèles Couche 2 : données - inclut l’infrastructure qui relie les LLM au contexte pertinent au sein des systèmes de données de l’entreprise, avec des composants clés comme le prétraitement des données, l’ETL et les pipelines de données, les bases de données vectorielles, les magasins de métadonnées et les caches de contexte Couche 3 : déploiement - inclut les outils qui aident les développeurs à gérer et orchestrer les applications IA. Frameworks d’agents, gestion des prompts, routage et orchestration des modèles Couche 4 : observabilité - inclut les solutions qui surveillent le comportement des LLM à l’exécution et les protègent contre les menaces Nouvelle courbe de maturité de l’IA La structure du marché et les technologies qui définissent la stack IA moderne évoluent rapidement, et les composants clés comme les leaders du secteur ont déjà émergé Avant les LLM, le développement ML était linéaire et « centré sur le modèle », mais les LLM ont fait basculer l’approche vers le « produit d’abord », permettant à des équipes sans expertise ML d’intégrer l’IA dans leurs produits À mesure que la stack IA mûrit, les équipes de développement cherchent à personnaliser l’expérience IA à partir de données spécifiques à l’entreprise ou au client Courbe de maturité de l’IA Étape 1 : Closed-source models only modèles propriétaires uniquement Début 2023, les coûts et les efforts d’ingénierie se concentraient surtout sur les modèles de base eux-mêmes, avec seulement une personnalisation simple par-dessus (prompt engineering / apprentissage de type few-shot) Les principaux fournisseurs de modèles propriétaires comme OpenAI et Anthropic ont gagné une traction initiale à cette étape, s’imposant comme les premiers gagnants de la stack IA moderne Étape 2 : Retrieval-augmented generation génération augmentée par récupération L’accent se déplace vers la couche data, plutôt que la couche modèle, au centre des efforts liés aux applications IA La popularisation du RAG a notamment nécessité une infrastructure data plus solide, comme la base de données vectorielle Pinecone et le moteur de prétraitement Unstructured La plupart des entreprises et des startups se situent actuellement à cette étape Étape 3 : Hybrid model deployment déploiement de modèles hybrides Des entreprises en pointe comme Typeface et Descript ont commencé à compléter l’usage de modèles propriétaires par de l’open source pour des tâches spécialisées à grand volume Des fournisseurs de déploiement de modèles comme Modal, Baseten et Fireworks commencent à gagner une traction significative Étape 4 et au-delà : Custom models modèles sur mesure Peu d’entreprises sont encore assez avancées pour construire leurs propres modèles, ou en ont réellement besoin, mais à l’avenir les cas d’usage de grandes entreprises cherchant à exploiter plus profondément la stack devraient se multiplier Des entreprises comme Predibase et Lamini, qui fournissent des outils pour le fine-tuning économe en mémoire (quantification 4 bits, QLoRA, pagination/déchargement mémoire), devraient soutenir cette évolution Quatre grands principes de conception pour la nouvelle stack d’infrastructure IA La révolution IA ne déclenche pas seulement une demande pour une nouvelle stack d’infrastructure, elle reconfigure aussi la façon dont les entreprises abordent le développement applicatif, les dépenses de R&D et la composition des équipes Principes de conception clés : 1. L’essentiel des dépenses va à l’inférence et au training Au début de la révolution des LLM, il semblait que toutes les entreprises finiraient par entraîner leur propre grand modèle de langage Des modèles comme BloombergGPT, annoncé en mars 2023 (un LLM 50b entraîné spécifiquement sur des données financières), laissaient présager une vague de LLM d’entreprise et de domaine Mais cette vague n’a finalement pas eu lieu D’après une récente enquête de Menlo Ventures sur l’IA en entreprise, près de 95 % des dépenses totales en IA sont consacrées au runtime et au pré-entraînement Cette proportion n’est inversée que chez de grands fournisseurs de modèles de base comme Anthropic. Dans la couche applicative, même des acteurs sophistiqués comme Writer consacrent plus de 80 % de leur calcul à l’inférence plutôt qu’au training 2. Nous vivons dans un monde multi-modèle Aucun modèle unique ne peut « régner sur tous » 60 % des entreprises utilisent plusieurs modèles et routent les prompts vers celui qui offre les meilleures performances Une approche multi-modèle supprime la dépendance à un modèle unique, offre davantage de contrôle et réduit les coûts 3. Le RAG est l’approche architecturale dominante Les LLM sont d’excellents moteurs de raisonnement, mais leur connaissance des domaines métiers et des entreprises reste limitée Pour créer des expériences IA utiles, les équipes déploient rapidement des techniques d’augmentation des connaissances, en commençant par le retrieval-augmented generation (RAG) Le RAG donne une « mémoire » spécifique à l’entreprise aux modèles de base via des bases de données vectorielles comme Pinecone Cette technique devance largement les autres approches de personnalisation actuellement en production, comme le fine-tuning, l’adaptation de rang faible ou les adapters, qui opèrent principalement dans la couche modèle plutôt que dans la couche data Cette tendance devrait se poursuivre, avec l’intégration dans les architectures d’exécution de nouvelles briques du plan de données, notamment des moteurs de prétraitement (ex. : Cleanlab) et des pipelines ETL (ex. : Unstructured) 4. Tous les développeurs sont désormais des développeurs IA On compte environ 30 millions de développeurs dans le monde, mais seulement 300 000 ingénieurs ML et 30 000 chercheurs en ML Parmi ceux qui innovent à la frontière du ML, on estime qu’il n’existe qu’une cinquantaine de chercheurs dans le monde sachant construire des systèmes au niveau de GPT-4 ou Claude 2 Face à cette réalité, la bonne nouvelle est que des tâches qui exigeaient auparavant des années de recherche fondamentale et une expertise ML poussée peuvent désormais être réalisées en quelques jours ou semaines par des développeurs généralistes qui conçoivent des systèmes de données autour de puissants LLM pré-entraînés Des produits comme Einstein GPT de Salesforce (copilote IA pour Sales) et Intuit Assist (assistant financier basé sur l’IA générative) sont principalement construits par de petites équipes composées d’ingénieurs IA, c’est-à-dire de développeurs full stack traditionnels travaillant sur le plan de données de la stack IA moderne Étapes suivantes La stack IA moderne évolue rapidement, avec plusieurs développements qui devraient se poursuivre cette année Les applications IA de nouvelle génération expérimentent un RAG plus avancé Le RAG règne aujourd’hui, mais cette approche n’est pas sans défauts De nombreuses implémentations utilisent encore des techniques naïves d’embedding et de recherche, notamment des découpages de documents basés sur le nombre de tokens, ainsi que des algorithmes d’indexation et de ranking inefficaces Elles rencontrent des problèmes comme la fragmentation du contexte, les hallucinations, la rareté des entités et l’inefficacité de la recherche Pour y remédier, les architectures de nouvelle génération testent un RAG plus avancé : raisonnement Chain-Of-Thought, raisonnement Tree-Of-Thought, Reflexion, recherche fondée sur des règles, etc. Les petits modèles vont prendre plus de place dans la stack IA moderne À mesure que les concepteurs d’applications IA approfondissent leur travail sur la stack IA moderne, on peut s’attendre à une hausse de modèles plus fins et spécifiques à certaines tâches Des modèles spécialisés, affinés pour des tâches précises, vont se diffuser dans des domaines où les grands modèles propriétaires sont trop lourds ou trop coûteux L’infrastructure pour construire des pipelines ML et effectuer le fine-tuning deviendra cruciale à ce stade, à mesure que les entreprises créeront leurs propres modèles dédiés à certaines tâches Les technologies de quantification proposées par Ollama et ggml aideront les équipes à tirer pleinement parti des gains de vitesse offerts par les petits modèles De nouveaux outils émergent pour l’observabilité et l’évaluation des modèles Pendant la majeure partie de 2023, les logs et l’évaluation étaient soit absents, soit réalisés manuellement, soit fondés sur des benchmarks académiques qui servent de point de départ à la plupart des applications d’entreprise D’après une étude de Criteo, environ 70 % des entreprises ayant adopté l’IA s’appuient sur une revue humaine des résultats comme principale méthode d’évaluation, en raison du niveau de risque Les clients attendent, à juste titre, des résultats de haute qualité, et les entreprises savent bien qu’elles peuvent perdre leur confiance à cause des hallucinations L’observabilité et l’évaluation représentent donc une opportunité importante pour de nouveaux outils Des approches prometteuses ont déjà émergé, comme Braintrust, Patronus, Log10 et AgentOps Les architectures vont évoluer vers le serverless Comme d’autres systèmes de données d’entreprise, la stack IA moderne évolue avec le temps vers le serverless On distingue ici le serverless de type « machine temporaire » (par ex. les fonctions Lambda) du véritable serverless scale-to-zero (par ex. l’architecture Neon pour Postgres) Dans le cas du scale-to-zero serverless, l’abstraction de l’infrastructure permet aux développeurs de réduire la complexité opérationnelle d’exécution des applications, d’itérer plus vite, et aux entreprises de ne payer que pour la disponibilité plutôt que pour le calcul, avec à la clé une optimisation significative des ressources Le paradigme serverless s’appliquera à toutes les composantes de la stack IA moderne Pinecone adopte cette approche comme architecture moderne pour le calcul vectoriel Neon le fait pour Postgres, Momento pour le caching, Baseten et Modal pour l’inférence

(menlovc.com)

28 points par xguru 2024-01-29 | 6 commentaires | Partager sur WhatsApp

Définition de la stack IA moderne

Couche 1 : calcul et modèles de base - inclut les modèles de base eux-mêmes ainsi que l’infrastructure nécessaire pour entraîner, affiner, optimiser et déployer les modèles
Couche 2 : données - inclut l’infrastructure qui relie les LLM au contexte pertinent au sein des systèmes de données de l’entreprise, avec des composants clés comme le prétraitement des données, l’ETL et les pipelines de données, les bases de données vectorielles, les magasins de métadonnées et les caches de contexte
Couche 3 : déploiement - inclut les outils qui aident les développeurs à gérer et orchestrer les applications IA. Frameworks d’agents, gestion des prompts, routage et orchestration des modèles
Couche 4 : observabilité - inclut les solutions qui surveillent le comportement des LLM à l’exécution et les protègent contre les menaces

Nouvelle courbe de maturité de l’IA

La structure du marché et les technologies qui définissent la stack IA moderne évoluent rapidement, et les composants clés comme les leaders du secteur ont déjà émergé
Avant les LLM, le développement ML était linéaire et « centré sur le modèle », mais les LLM ont fait basculer l’approche vers le « produit d’abord », permettant à des équipes sans expertise ML d’intégrer l’IA dans leurs produits
À mesure que la stack IA mûrit, les équipes de développement cherchent à personnaliser l’expérience IA à partir de données spécifiques à l’entreprise ou au client
Courbe de maturité de l’IA
- Étape 1 : Closed-source models only modèles propriétaires uniquement
  - Début 2023, les coûts et les efforts d’ingénierie se concentraient surtout sur les modèles de base eux-mêmes, avec seulement une personnalisation simple par-dessus (prompt engineering / apprentissage de type few-shot)
  - Les principaux fournisseurs de modèles propriétaires comme OpenAI et Anthropic ont gagné une traction initiale à cette étape, s’imposant comme les premiers gagnants de la stack IA moderne
- Étape 2 : Retrieval-augmented generation génération augmentée par récupération
  - L’accent se déplace vers la couche data, plutôt que la couche modèle, au centre des efforts liés aux applications IA
  - La popularisation du RAG a notamment nécessité une infrastructure data plus solide, comme la base de données vectorielle Pinecone et le moteur de prétraitement Unstructured
  - La plupart des entreprises et des startups se situent actuellement à cette étape
- Étape 3 : Hybrid model deployment déploiement de modèles hybrides
  - Des entreprises en pointe comme Typeface et Descript ont commencé à compléter l’usage de modèles propriétaires par de l’open source pour des tâches spécialisées à grand volume
  - Des fournisseurs de déploiement de modèles comme Modal, Baseten et Fireworks commencent à gagner une traction significative
- Étape 4 et au-delà : Custom models modèles sur mesure
  - Peu d’entreprises sont encore assez avancées pour construire leurs propres modèles, ou en ont réellement besoin, mais à l’avenir les cas d’usage de grandes entreprises cherchant à exploiter plus profondément la stack devraient se multiplier
  - Des entreprises comme Predibase et Lamini, qui fournissent des outils pour le fine-tuning économe en mémoire (quantification 4 bits, QLoRA, pagination/déchargement mémoire), devraient soutenir cette évolution

Quatre grands principes de conception pour la nouvelle stack d’infrastructure IA

La révolution IA ne déclenche pas seulement une demande pour une nouvelle stack d’infrastructure, elle reconfigure aussi la façon dont les entreprises abordent le développement applicatif, les dépenses de R&D et la composition des équipes
Principes de conception clés :
- 1. L’essentiel des dépenses va à l’inférence et au training
  - Au début de la révolution des LLM, il semblait que toutes les entreprises finiraient par entraîner leur propre grand modèle de langage
  - Des modèles comme BloombergGPT, annoncé en mars 2023 (un LLM 50b entraîné spécifiquement sur des données financières), laissaient présager une vague de LLM d’entreprise et de domaine
  - Mais cette vague n’a finalement pas eu lieu
  - D’après une récente enquête de Menlo Ventures sur l’IA en entreprise, près de 95 % des dépenses totales en IA sont consacrées au runtime et au pré-entraînement
  - Cette proportion n’est inversée que chez de grands fournisseurs de modèles de base comme Anthropic. Dans la couche applicative, même des acteurs sophistiqués comme Writer consacrent plus de 80 % de leur calcul à l’inférence plutôt qu’au training
- 2. Nous vivons dans un monde multi-modèle
  - Aucun modèle unique ne peut « régner sur tous »
  - 60 % des entreprises utilisent plusieurs modèles et routent les prompts vers celui qui offre les meilleures performances
  - Une approche multi-modèle supprime la dépendance à un modèle unique, offre davantage de contrôle et réduit les coûts
- 3. Le RAG est l’approche architecturale dominante
  - Les LLM sont d’excellents moteurs de raisonnement, mais leur connaissance des domaines métiers et des entreprises reste limitée
  - Pour créer des expériences IA utiles, les équipes déploient rapidement des techniques d’augmentation des connaissances, en commençant par le retrieval-augmented generation (RAG)
  - Le RAG donne une « mémoire » spécifique à l’entreprise aux modèles de base via des bases de données vectorielles comme Pinecone
  - Cette technique devance largement les autres approches de personnalisation actuellement en production, comme le fine-tuning, l’adaptation de rang faible ou les adapters, qui opèrent principalement dans la couche modèle plutôt que dans la couche data
  - Cette tendance devrait se poursuivre, avec l’intégration dans les architectures d’exécution de nouvelles briques du plan de données, notamment des moteurs de prétraitement (ex. : Cleanlab) et des pipelines ETL (ex. : Unstructured)
- 4. Tous les développeurs sont désormais des développeurs IA
  - On compte environ 30 millions de développeurs dans le monde, mais seulement 300 000 ingénieurs ML et 30 000 chercheurs en ML
  - Parmi ceux qui innovent à la frontière du ML, on estime qu’il n’existe qu’une cinquantaine de chercheurs dans le monde sachant construire des systèmes au niveau de GPT-4 ou Claude 2
  - Face à cette réalité, la bonne nouvelle est que des tâches qui exigeaient auparavant des années de recherche fondamentale et une expertise ML poussée peuvent désormais être réalisées en quelques jours ou semaines par des développeurs généralistes qui conçoivent des systèmes de données autour de puissants LLM pré-entraînés
  - Des produits comme Einstein GPT de Salesforce (copilote IA pour Sales) et Intuit Assist (assistant financier basé sur l’IA générative) sont principalement construits par de petites équipes composées d’ingénieurs IA, c’est-à-dire de développeurs full stack traditionnels travaillant sur le plan de données de la stack IA moderne

Étapes suivantes

La stack IA moderne évolue rapidement, avec plusieurs développements qui devraient se poursuivre cette année
Les applications IA de nouvelle génération expérimentent un RAG plus avancé
- Le RAG règne aujourd’hui, mais cette approche n’est pas sans défauts
- De nombreuses implémentations utilisent encore des techniques naïves d’embedding et de recherche, notamment des découpages de documents basés sur le nombre de tokens, ainsi que des algorithmes d’indexation et de ranking inefficaces
- Elles rencontrent des problèmes comme la fragmentation du contexte, les hallucinations, la rareté des entités et l’inefficacité de la recherche
- Pour y remédier, les architectures de nouvelle génération testent un RAG plus avancé : raisonnement Chain-Of-Thought, raisonnement Tree-Of-Thought, Reflexion, recherche fondée sur des règles, etc.
Les petits modèles vont prendre plus de place dans la stack IA moderne
- À mesure que les concepteurs d’applications IA approfondissent leur travail sur la stack IA moderne, on peut s’attendre à une hausse de modèles plus fins et spécifiques à certaines tâches
- Des modèles spécialisés, affinés pour des tâches précises, vont se diffuser dans des domaines où les grands modèles propriétaires sont trop lourds ou trop coûteux
- L’infrastructure pour construire des pipelines ML et effectuer le fine-tuning deviendra cruciale à ce stade, à mesure que les entreprises créeront leurs propres modèles dédiés à certaines tâches
- Les technologies de quantification proposées par Ollama et ggml aideront les équipes à tirer pleinement parti des gains de vitesse offerts par les petits modèles
De nouveaux outils émergent pour l’observabilité et l’évaluation des modèles
- Pendant la majeure partie de 2023, les logs et l’évaluation étaient soit absents, soit réalisés manuellement, soit fondés sur des benchmarks académiques qui servent de point de départ à la plupart des applications d’entreprise
- D’après une étude de Criteo, environ 70 % des entreprises ayant adopté l’IA s’appuient sur une revue humaine des résultats comme principale méthode d’évaluation, en raison du niveau de risque
- Les clients attendent, à juste titre, des résultats de haute qualité, et les entreprises savent bien qu’elles peuvent perdre leur confiance à cause des hallucinations
- L’observabilité et l’évaluation représentent donc une opportunité importante pour de nouveaux outils
- Des approches prometteuses ont déjà émergé, comme Braintrust, Patronus, Log10 et AgentOps
Les architectures vont évoluer vers le serverless
- Comme d’autres systèmes de données d’entreprise, la stack IA moderne évolue avec le temps vers le serverless
- On distingue ici le serverless de type « machine temporaire » (par ex. les fonctions Lambda) du véritable serverless scale-to-zero (par ex. l’architecture Neon pour Postgres)
- Dans le cas du scale-to-zero serverless, l’abstraction de l’infrastructure permet aux développeurs de réduire la complexité opérationnelle d’exécution des applications, d’itérer plus vite, et aux entreprises de ne payer que pour la disponibilité plutôt que pour le calcul, avec à la clé une optimisation significative des ressources
- Le paradigme serverless s’appliquera à toutes les composantes de la stack IA moderne
- Pinecone adopte cette approche comme architecture moderne pour le calcul vectoriel
- Neon le fait pour Postgres, Momento pour le caching, Baseten et Modal pour l’inférence

6 commentaires

hyeonseokoh94 2024-01-31

Un article intéressant et agréable à lire.

galadbran 2024-01-30

https://fr.news.hada.io/topic?id=6658 Neon - Postgres serverless open source

kaistj 2024-01-30

J’espère que beaucoup de nouvelles opportunités se créeront dans cet environnement en pleine évolution~
Dans une bonne direction

dlehals2 2024-01-29

N’y a-t-il vraiment que 30 millions de développeurs dans le monde ??

xguru 2024-01-29

Selon un rapport souvent cité d’Evans Data Corporation, il y en avait environ 26,3 millions en 2022.
https://www.evansdata.com/press/viewRelease.php?pressID=339

Le nombre de développeurs utilisant GitHub a bien dépassé les 100 millions, mais il est difficile de considérer que tous sont des développeurs.
https://github.blog/2023-01-25-100-million-developers-and-counting/