Calculer le coût de l’article de recherche de Google DeepMind

(152334H.github.io)

4 points par GN⁺ 2024-07-31 | 1 commentaires | Partager sur WhatsApp

« Comment brûler environ 10 M$ (13 milliards de wons) dans un preprint arXiv »
Récemment, DeepMind (GDM) a publié un excellent article intitulé « Scaling Exponents Across Parameterizations and Optimizers »
- Cet article a exécuté plus de 10 000 runs d’entraînement de LLM afin de dériver les hyperparamètres optimaux dans divers environnements
Après avoir lu l’article, l’auteur a tenté de calculer le coût total en puissance de calcul nécessaire pour reproduire l’étude en agrégeant tous les résultats expérimentaux
Au final, le total de FLOPS nécessaires est de 5.42e24, et le coût est de 12.9 M$ (17,8 milliards de wons) (sur la base de 3 $/H100/heure)
- À grande échelle, 5.42e24 reste une taille « pas si énorme »
- Cela représente moins de 15 % du calcul utilisé pour Llama 3, et un cluster de 100 000 H100 pourrait exécuter toutes ces expériences en seulement 2 jours

Quelques précisions sur la valeur du H100

Comme il s’agit d’un article provenant de Google DeepMind, les expériences ont presque certainement été menées sur TPU
Comme l’article ne mentionne pas l’usage de int8, on peut supposer qu’il a probablement utilisé une précision bfloat16
Le H100-SXM offre 989.40 TFLOP/s de performances en calcul tensoriel 16 bits
De récents billets de blog de PyTorch et torchtitan rapportent un MFU du H100 d’environ 40 %
Le coût d’un nœud H100 est estimé à environ 3 $/heure (cela varie légèrement selon l’endroit où il est utilisé, donc il s’agit d’une moyenne)

parkindani 2024-08-01

Je me demande quel a été le volume total d’énergie consommée, plus encore que le prix.