15 points par xguru 2024-06-17 | 4 commentaires | Partager sur WhatsApp
  • Combien coûte l’hébergement direct d’un grand modèle de langage (LLM) ?
  • En hébergeant le modèle Llama-3 8B-Instruct sur EKS, le coût est d’environ 17 $ par million de tokens
  • Pour la même tâche avec ChatGPT, le coût est de 1 $ par million de tokens
  • En auto-hébergeant le matériel, le coût tombe à moins de 0,01 $ par million de tokens, et le seuil de rentabilité est atteint en environ 5,5 ans
    • Calcul basé sur 4x GPU NVidia Tesla T4 et autres coûts matériels (3 800 $) + coût mensuel (électricité et autres) de 100 $

Processus de détermination du matériel optimal

  • Environnement de test : tous les tests ont été exécutés sur un cluster EKS

  • Premier essai : instance AWS g4dn.2xlarge utilisant un GPU Nvidia Tesla T4.

    • Spécifications : 1 NVidia Tesla T4, 32 Go de mémoire, 8 vCPU.
    • Résultat : impossible d’exécuter les versions 8B ou 70B paramètres de Llama 3.
    • Problème : OOM (Out of Memory) et temps de réponse d’environ 10 minutes.
  • Deuxième essai : instance AWS g4dn.16xlarge utilisant 4 GPU Nvidia Tesla T4.

    • Spécifications : 4 NVidia Tesla T4, 192 Go de mémoire, 48 vCPU.
    • Résultat : temps de réponse réduit à moins de 10 secondes.

Implémentation initiale

  • Méthode d’implémentation : copie et utilisation du code Llama-3 de Hugging Face.
  • Calcul des coûts :
    • Coût d’utilisation d’une instance g5dn.12xlarge : 3,912 $ par heure.
    • En calcul mensuel, le coût atteint environ 167,17 $ par million de tokens.
    • Coût de ChatGPT 3.5 Turbo : 1 $ par million de tokens.

Résolution du problème

  • Constat : la méthode existante était erronée, d’où l’utilisation de vLLM.
  • Résultats de l’amélioration :
    • Installation de ray et vllm pour héberger le serveur API.
    • Utilisation des 4 GPU avec l’option —tensor-parallel-size 4.
    • Résultat : temps de réponse fortement amélioré à 2044 ms.
    • Après recalcul, le coût est d’environ 17 $ par million de tokens.

Approche alternative

  • Hébergement sur matériel personnel :
    • Matériel nécessaire : 4x GPU NVidia Tesla T4, environ 700 $ sur eBay.
    • En incluant les autres coûts, le coût total d’installation est d’environ 3 800 $.
    • Coût énergétique mensuel d’environ 50 $.
    • Coût mensuel total estimé à environ 100 $.
    • Seuil de rentabilité atteint après environ 66 mois (5,5 ans).

Conclusion

  • Avantage : réduction possible des coûts avec l’hébergement sur matériel personnel.
  • Inconvénient : nécessité de gérer le matériel et la montée en charge
    • L’hypothèse d’une utilisation à 100 % n’étant pas réaliste, une évaluation adaptée à la situation réelle est nécessaire.

4 commentaires

 
iolothebard 2024-06-17

Il ne s’agit même pas de déployer le modèle,
juste de faire de l’inférence avec Llama 8B, donc le matériel est excessif.
Avec un GPU de 24 Go (3090 ou 4090), c’est suffisant (2 à 3 millions de wons), et environ 30 000 wons d’électricité par mois suffisent aussi.
Maintenant que je l’ai écrit, je vois que c’est déjà mentionné plus bas haha

 
wedding 2024-06-17

5,5 ans, c’est long..

 
ragingwind 2024-06-17

Est-il possible d’aller au-delà du niveau jouet avec 8B ?

 
xguru 2024-06-17

Commentaire Hacker News

  • L’auto-hébergement du matériel au lieu d’AWS réduit fortement les coûts.
    • Utiliser 4 NVidia Tesla T4 coûte environ 3 800 $.
    • Pour le modèle Llama 3 8b, un seul GPU 3090 ou 4090 suffit.
    • Acheter des GPU sur eBay peut permettre de réduire les coûts.
  • Le modèle Llama 8B coûte 0,40 $ par 1M de tokens d’entrée et 0,60 $ par token de sortie sur AWS Bedrock, ce qui est moins cher que les modèles OpenAI.
    • Il faut aussi prendre en compte le temps et le coût nécessaires à l’installation et à la maintenance du serveur.
  • Prix de Jetstream + Maxtext
    • Avec un TPU v5e, le tarif avec engagement sur 3 ans est de 0,25 $ par 1M de tokens.
    • Le tarif à la demande est d’environ 0,45 $ par 1M de tokens.
    • Plus de détails sont disponibles dans la session Google Next 2024.
  • Baisse anticipée de la valorisation de NVIDIA
    • Les performances des LLM stagnent, et avec leur commercialisation, la valorisation de NVIDIA pourrait reculer.
    • La demande en calcul pour l’entraînement diminuera probablement aussi plus vite que prévu.
  • Problèmes dans l’analyse des coûts
    • Exécuter avec une taille de batch de 1 entraîne une erreur majeure dans l’analyse des coûts.
    • Cela revient 100 à 1000 fois plus cher que les tarifs facturés par les fournisseurs d’API.
  • Coût d’exécution d’un modèle 8B
    • Une 3090 et un système de base suffisent largement pour faire tourner un modèle 8B.
    • L’écart de coût entre OpenAI et AWS est important (1 $ contre 17 $).
    • AWS peut en réalité être moins cher.
  • Problème de compréhension des coûts
    • Il est inadapté d’évaluer les coûts à partir de requêtes synchrones unitaires.
    • ChatGPT traite de nombreuses requêtes en parallèle.
    • Des requêtes plus volumineuses, des requêtes concurrentes et la mise en file d’attente peuvent réduire fortement les coûts.
  • Coût d’accès aux LLM
    • Le coût d’accès aux LLM est très faible.
    • Les ingénieurs devraient s’en réjouir au vu des avancées techniques.
  • Le T4 est une carte vieille de 6 ans ; il serait plus pertinent de la comparer à une 3090, 4090, A10 ou A100.