Manuel d’inférence des LLM

(bentoml.com)

3 points par GN⁺ 2025-07-12 | 1 commentaires | Partager sur WhatsApp

Le Manuel d’inférence des LLM propose un guide complet des concepts clés et des techniques d’optimisation nécessaires à l’inférence des LLM en environnement de production
Il fournit des informations essentielles pour la pratique, notamment sur les indicateurs de performance (par ex. Time to First Token, Tokens per Second) et les bonnes pratiques d’exploitation
Il explique en détail les méthodes d’optimisation les plus récentes, comme le continuous batching et le prefix caching
Il rassemble en un seul endroit des connaissances sur l’inférence des LLM jusque-là dispersées, afin d’améliorer la compréhension et la mise en pratique des développeurs
Le manuel est continuellement mis à jour pour intégrer les informations de terrain les plus récentes et des méthodologies éprouvées

Présentation du Manuel d’inférence des LLM

LLM Inference in Production combine en un seul ensemble un glossaire technique, un guide pratique et un ouvrage de référence
Ce manuel traite en détail des éléments indispensables à connaître en pratique, notamment des concepts fondamentaux de l’inférence des LLM, des indicateurs de performance, des techniques d’optimisation (continuous batching, prefix caching, etc.) et des bonnes pratiques d’exploitation

Il fournit des indications concrètes sur le déploiement, la montée en charge et l’exploitation des LLM en environnement de production
Il écarte les exceptions irréalistes et le bruit technique inutile pour se concentrer sur ce qui compte réellement sur le terrain
Il présente des techniques d’amélioration des performances adaptées à chaque cas d’usage, utiles de manière concrète pour optimiser les performances
Il est continuellement mis à jour avec les dernières tendances du secteur et des enseignements validés dans la pratique

Pourquoi ce manuel a été écrit

Les développeurs ont souvent du mal à trouver des informations sur l’inférence des LLM, ou doivent les chercher dans de multiples sources, ce qui entraîne un problème de fragmentation des connaissances
Les auteurs du manuel ont rassemblé des contenus éparpillés entre articles académiques, blogs de fournisseurs, issues GitHub et conversations sur Discord afin de permettre de comprendre d’un seul coup d’œil :

la différence entre l’entraînement et l’inférence des LLM
la corrélation entre le Goodput et l’atteinte des SLO
l’utilisation concrète de la technique de séparation Prefill-Decode

Public visé

Ce manuel a été conçu pour les ingénieurs qui déploient, font monter en charge et exploitent des LLM en environnement de production
Du fine-tuning de petits modèles open source à l’exploitation d’une infrastructure à grande échelle en propre,

il s’adresse en priorité à toutes celles et tous ceux qui veulent rendre l’inférence des LLM plus rapide, moins coûteuse et plus fiable

Comment l’utiliser

Ce manuel peut être lu de bout en bout, ou utilisé comme un ouvrage de référence dans lequel on consulte uniquement les sections nécessaires
Il n’impose ni ordre d’entrée particulier ni méthode d’utilisation,

et son contenu continuera d’être enrichi et mis à jour pour suivre l’évolution rapide du domaine de l’inférence des LLM

Contribuer

Les signalements d’erreurs, suggestions d’amélioration et propositions de nouveaux sujets sont les bienvenus

Tout le monde peut participer en ouvrant une issue ou en soumettant une Pull Request sur le dépôt GitHub

1 commentaires

GN⁺ 2025-07-12

Avis Hacker News

Bonjour, je suis l’un des mainteneurs principaux de ce projet. Je suis ravi et honoré de voir notre projet présenté sur Hacker News. Nous avons créé ce handbook pour permettre aux développeurs qui construisent de vraies applications LLM d’aborder facilement les concepts d’inférence LLM. Notre objectif était de rassembler des connaissances dispersées en un ensemble clair, pratique et facilement extensible. Nous allons continuer à l’améliorer pour en faire un handbook encore meilleur, et nous accueillons volontiers les retours. J’aimerais aussi que vous jetiez un œil au dépôt GitHub
- Merci beaucoup d’avoir organisé tout ça. J’ai une question : dans ce schéma, qui définit TTFT et ITL, on a l’impression que le modèle génère 4 tokens de T0 à T3 avant d’émettre un token de sortie. À mon avis, ce schéma convient mieux pour expliquer l’ITL, et dans le cas du TTFT, il me semble qu’un seul token T0 devrait sortir à l’étape de décodage, puis arriver immédiatement à la detokenization comme premier token de sortie (surtout qu’en environnement de streaming, sinon la mesure du TTFT n’aurait pas vraiment de sens)
- Je n’ai pas l’intention d’ouvrir une issue séparée, mais j’aimerais qu’au moins dans la partie self-hosting du handbook, des solutions open source d’inférence locale en self-hosting comme llama.cpp soient recommandées plus explicitement
- Je trouve ce handbook utile et bien structuré, mais il est découpé en trop de petites pages, et comme la table des matières ne s’affiche pas par défaut sur mobile, la lecture est peu pratique. J’ai arrêté après quelques pages. J’aimerais qu’au minimum chaque section soit affichée sur une seule page
- C’est vraiment un excellent travail, très joli et utile
Le design est vraiment superbe, et je demande par curiosité : connaissez-vous le nom de cette tendance ou de ce style de design utilisé sur le site ? J’ai aussi beaucoup aimé le design de ce site
- On dirait qu’ils utilisent Infima comme framework CSS de base. C’est le framework CSS par défaut de Docusaurus, et il exploite simplement la pile de polices système. Le font-family est -apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, Helvetica, Arial, sans-serif
J’aimerais qu’à l’avenir il y ait aussi davantage de contenu sur les structured outputs / guided generation ainsi que sur l’échantillonnage. Comme référence complémentaire pour les algorithmes d’échantillonnage à l’étape d’inférence, ceci vaut aussi le détour
- Waouh, ce récapitulatif sur l’échantillonnage est lui aussi vraiment très détaillé
Je suis très heureux de voir paraître un handbook comme celui-ci. Je comprends qu’il y ait beaucoup d’intérêt et d’enthousiasme autour de l’entraînement des modèles dans les ressources publiques, mais savoir bien exploiter un modèle en production est tout aussi important. À mesure que ces modèles seront adoptés plus largement dans des applications variées, les connaissances d’exécution et d’exploitation deviendront de plus en plus nécessaires
Merci d’avoir rassemblé et organisé tout cela. À l’avenir, il suffira sans doute de partager ce seul lien pour que les personnes intéressées puissent apprendre. Une suggestion toutefois : sur la page « OpenAI-compatible API », ce serait bien d’ajouter aussi un exemple d’appel REST pur, sans le package OpenAI
Ce dont je me souviens de BentoML, c’est que c’était à l’origine plutôt lié au MLOps ; je crois l’avoir utilisé il y a un an. Je me demande si l’entreprise a changé d’orientation
- Le serving LLM représente une part importante du marché, donc pour un framework de serving, s’étendre à ce domaine est une évolution assez naturelle
C’est une excellente référence, merci de l’avoir aussi bien compilée