Coût de l’auto-hébergement du modèle Llama-3 8B-Instruct
(blog.lytix.co)- Combien coûte l’hébergement direct d’un grand modèle de langage (LLM) ?
- En hébergeant le modèle Llama-3 8B-Instruct sur EKS, le coût est d’environ 17 $ par million de tokens
- Pour la même tâche avec ChatGPT, le coût est de 1 $ par million de tokens
- En auto-hébergeant le matériel, le coût tombe à moins de 0,01 $ par million de tokens, et le seuil de rentabilité est atteint en environ 5,5 ans
- Calcul basé sur 4x GPU NVidia Tesla T4 et autres coûts matériels (3 800 $) + coût mensuel (électricité et autres) de 100 $
Processus de détermination du matériel optimal
-
Environnement de test : tous les tests ont été exécutés sur un cluster EKS
-
Premier essai : instance AWS
g4dn.2xlargeutilisant un GPU Nvidia Tesla T4.- Spécifications : 1 NVidia Tesla T4, 32 Go de mémoire, 8 vCPU.
- Résultat : impossible d’exécuter les versions 8B ou 70B paramètres de Llama 3.
- Problème : OOM (Out of Memory) et temps de réponse d’environ 10 minutes.
-
Deuxième essai : instance AWS
g4dn.16xlargeutilisant 4 GPU Nvidia Tesla T4.- Spécifications : 4 NVidia Tesla T4, 192 Go de mémoire, 48 vCPU.
- Résultat : temps de réponse réduit à moins de 10 secondes.
Implémentation initiale
- Méthode d’implémentation : copie et utilisation du code Llama-3 de Hugging Face.
- Calcul des coûts :
- Coût d’utilisation d’une instance
g5dn.12xlarge: 3,912 $ par heure. - En calcul mensuel, le coût atteint environ 167,17 $ par million de tokens.
- Coût de ChatGPT 3.5 Turbo : 1 $ par million de tokens.
- Coût d’utilisation d’une instance
Résolution du problème
- Constat : la méthode existante était erronée, d’où l’utilisation de
vLLM. - Résultats de l’amélioration :
- Installation de
rayetvllmpour héberger le serveur API. - Utilisation des 4 GPU avec l’option
—tensor-parallel-size 4. - Résultat : temps de réponse fortement amélioré à 2044 ms.
- Après recalcul, le coût est d’environ 17 $ par million de tokens.
- Installation de
Approche alternative
- Hébergement sur matériel personnel :
- Matériel nécessaire : 4x GPU NVidia Tesla T4, environ 700 $ sur eBay.
- En incluant les autres coûts, le coût total d’installation est d’environ 3 800 $.
- Coût énergétique mensuel d’environ 50 $.
- Coût mensuel total estimé à environ 100 $.
- Seuil de rentabilité atteint après environ 66 mois (5,5 ans).
Conclusion
- Avantage : réduction possible des coûts avec l’hébergement sur matériel personnel.
- Inconvénient : nécessité de gérer le matériel et la montée en charge
- L’hypothèse d’une utilisation à 100 % n’étant pas réaliste, une évaluation adaptée à la situation réelle est nécessaire.
4 commentaires
Il ne s’agit même pas de déployer le modèle,
juste de faire de l’inférence avec Llama 8B, donc le matériel est excessif.
Avec un GPU de 24 Go (3090 ou 4090), c’est suffisant (2 à 3 millions de wons), et environ 30 000 wons d’électricité par mois suffisent aussi.
Maintenant que je l’ai écrit, je vois que c’est déjà mentionné plus bas haha
5,5 ans, c’est long..
Est-il possible d’aller au-delà du niveau jouet avec 8B ?
Commentaire Hacker News