- Récapitulatif des chiffres importants à connaître lorsqu’on utilise des LLM.
- Ajouter « concise » dans le prompt peut réduire le coût de 40 à 90 %.
- Par rapport à GPT-4, GPT-3.5 Turbo est 50 fois moins cher.
- Utiliser les embeddings OpenAI pour la recherche vectorielle coûte 20 fois moins cher que GPT-3.5 Turbo.
- Entraîner un LLM de la catégorie de LLaMa coûte environ un million de dollars.
- Taille de mémoire par GPU - V100 : 16GB, A10G : 24GB, A100 : 40/80GB H100 : 80GB
- En général, il faut une mémoire équivalente à 2 fois la taille du modèle - 7B = 14GB
- Les modèles d’embedding utilisent généralement moins de 1GB de mémoire
- Le traitement par lots des requêtes LLM peut les rendre plus de 10 fois plus rapides.
- Un modèle 13B nécessite environ 1MB par token, donc le traitement par lots augmente fortement les besoins en mémoire.
2 commentaires
J’ai déjà beaucoup essayé de faire court, mais je devrais aussi tester le "be consise" dont parle l’article.
Il faudra aussi essayer de le combiner avec let's think step by step.