- « Comment brûler environ 10 M$ (13 milliards de wons) dans un preprint arXiv »
- Récemment, DeepMind (GDM) a publié un excellent article intitulé « Scaling Exponents Across Parameterizations and Optimizers »
- Cet article a exécuté plus de 10 000 runs d’entraînement de LLM afin de dériver les hyperparamètres optimaux dans divers environnements
- Après avoir lu l’article, l’auteur a tenté de calculer le coût total en puissance de calcul nécessaire pour reproduire l’étude en agrégeant tous les résultats expérimentaux
- Au final, le total de FLOPS nécessaires est de 5.42e24, et le coût est de 12.9 M$ (17,8 milliards de wons) (sur la base de 3 $/H100/heure)
- À grande échelle, 5.42e24 reste une taille « pas si énorme »
- Cela représente moins de 15 % du calcul utilisé pour Llama 3, et un cluster de 100 000 H100 pourrait exécuter toutes ces expériences en seulement 2 jours
Quelques précisions sur la valeur du H100
- Comme il s’agit d’un article provenant de Google DeepMind, les expériences ont presque certainement été menées sur TPU
- Comme l’article ne mentionne pas l’usage de
int8, on peut supposer qu’il a probablement utilisé une précision bfloat16
- Le H100-SXM offre 989.40 TFLOP/s de performances en calcul tensoriel 16 bits
- De récents billets de blog de PyTorch et torchtitan rapportent un MFU du H100 d’environ 40 %
- Le coût d’un nœud H100 est estimé à environ 3 $/heure (cela varie légèrement selon l’endroit où il est utilisé, donc il s’agit d’une moyenne)
1 commentaires
Je me demande quel a été le volume total d’énergie consommée, plus encore que le prix.