Manuel d’inférence des LLM
(bentoml.com)- Le Manuel d’inférence des LLM propose un guide complet des concepts clés et des techniques d’optimisation nécessaires à l’inférence des LLM en environnement de production
- Il fournit des informations essentielles pour la pratique, notamment sur les indicateurs de performance (par ex. Time to First Token, Tokens per Second) et les bonnes pratiques d’exploitation
- Il explique en détail les méthodes d’optimisation les plus récentes, comme le continuous batching et le prefix caching
- Il rassemble en un seul endroit des connaissances sur l’inférence des LLM jusque-là dispersées, afin d’améliorer la compréhension et la mise en pratique des développeurs
- Le manuel est continuellement mis à jour pour intégrer les informations de terrain les plus récentes et des méthodologies éprouvées
Présentation du Manuel d’inférence des LLM
LLM Inference in Production combine en un seul ensemble un glossaire technique, un guide pratique et un ouvrage de référence
Ce manuel traite en détail des éléments indispensables à connaître en pratique, notamment des concepts fondamentaux de l’inférence des LLM, des indicateurs de performance, des techniques d’optimisation (continuous batching, prefix caching, etc.) et des bonnes pratiques d’exploitation
- Il fournit des indications concrètes sur le déploiement, la montée en charge et l’exploitation des LLM en environnement de production
- Il écarte les exceptions irréalistes et le bruit technique inutile pour se concentrer sur ce qui compte réellement sur le terrain
- Il présente des techniques d’amélioration des performances adaptées à chaque cas d’usage, utiles de manière concrète pour optimiser les performances
- Il est continuellement mis à jour avec les dernières tendances du secteur et des enseignements validés dans la pratique
Pourquoi ce manuel a été écrit
Les développeurs ont souvent du mal à trouver des informations sur l’inférence des LLM, ou doivent les chercher dans de multiples sources, ce qui entraîne un problème de fragmentation des connaissances
Les auteurs du manuel ont rassemblé des contenus éparpillés entre articles académiques, blogs de fournisseurs, issues GitHub et conversations sur Discord afin de permettre de comprendre d’un seul coup d’œil :
- la différence entre l’entraînement et l’inférence des LLM
- la corrélation entre le Goodput et l’atteinte des SLO
- l’utilisation concrète de la technique de séparation Prefill-Decode
Public visé
Ce manuel a été conçu pour les ingénieurs qui déploient, font monter en charge et exploitent des LLM en environnement de production
Du fine-tuning de petits modèles open source à l’exploitation d’une infrastructure à grande échelle en propre,
- il s’adresse en priorité à toutes celles et tous ceux qui veulent rendre l’inférence des LLM plus rapide, moins coûteuse et plus fiable
Comment l’utiliser
Ce manuel peut être lu de bout en bout, ou utilisé comme un ouvrage de référence dans lequel on consulte uniquement les sections nécessaires
Il n’impose ni ordre d’entrée particulier ni méthode d’utilisation,
- et son contenu continuera d’être enrichi et mis à jour pour suivre l’évolution rapide du domaine de l’inférence des LLM
Contribuer
Les signalements d’erreurs, suggestions d’amélioration et propositions de nouveaux sujets sont les bienvenus
- Tout le monde peut participer en ouvrant une issue ou en soumettant une Pull Request sur le dépôt GitHub
1 commentaires
Avis Hacker News
font-familyest-apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, Helvetica, Arial, sans-serif