42 points par kuroneko 2023-05-18 | 2 commentaires | Partager sur WhatsApp
  • Récapitulatif des chiffres importants à connaître lorsqu’on utilise des LLM.
  • Ajouter « concise » dans le prompt peut réduire le coût de 40 à 90 %.
  • Par rapport à GPT-4, GPT-3.5 Turbo est 50 fois moins cher.
  • Utiliser les embeddings OpenAI pour la recherche vectorielle coûte 20 fois moins cher que GPT-3.5 Turbo.
  • Entraîner un LLM de la catégorie de LLaMa coûte environ un million de dollars.
  • Taille de mémoire par GPU - V100 : 16GB, A10G : 24GB, A100 : 40/80GB H100 : 80GB
  • En général, il faut une mémoire équivalente à 2 fois la taille du modèle - 7B = 14GB
  • Les modèles d’embedding utilisent généralement moins de 1GB de mémoire
  • Le traitement par lots des requêtes LLM peut les rendre plus de 10 fois plus rapides.
  • Un modèle 13B nécessite environ 1MB par token, donc le traitement par lots augmente fortement les besoins en mémoire.

2 commentaires

 
xguru 2023-05-18

J’ai déjà beaucoup essayé de faire court, mais je devrais aussi tester le "be consise" dont parle l’article.

 
wedding 2023-05-20

Il faudra aussi essayer de le combiner avec let's think step by step.