4 points par GN⁺ 2024-07-31 | 1 commentaires | Partager sur WhatsApp
  • « Comment brûler environ 10 M$ (13 milliards de wons) dans un preprint arXiv »
  • Récemment, DeepMind (GDM) a publié un excellent article intitulé « Scaling Exponents Across Parameterizations and Optimizers »
    • Cet article a exécuté plus de 10 000 runs d’entraînement de LLM afin de dériver les hyperparamètres optimaux dans divers environnements
  • Après avoir lu l’article, l’auteur a tenté de calculer le coût total en puissance de calcul nécessaire pour reproduire l’étude en agrégeant tous les résultats expérimentaux
  • Au final, le total de FLOPS nécessaires est de 5.42e24, et le coût est de 12.9 M$ (17,8 milliards de wons) (sur la base de 3 $/H100/heure)
    • À grande échelle, 5.42e24 reste une taille « pas si énorme »
    • Cela représente moins de 15 % du calcul utilisé pour Llama 3, et un cluster de 100 000 H100 pourrait exécuter toutes ces expériences en seulement 2 jours

Quelques précisions sur la valeur du H100

  • Comme il s’agit d’un article provenant de Google DeepMind, les expériences ont presque certainement été menées sur TPU
  • Comme l’article ne mentionne pas l’usage de int8, on peut supposer qu’il a probablement utilisé une précision bfloat16
  • Le H100-SXM offre 989.40 TFLOP/s de performances en calcul tensoriel 16 bits
  • De récents billets de blog de PyTorch et torchtitan rapportent un MFU du H100 d’environ 40 %
  • Le coût d’un nœud H100 est estimé à environ 3 $/heure (cela varie légèrement selon l’endroit où il est utilisé, donc il s’agit d’une moyenne)

1 commentaires

 
parkindani 2024-08-01

Je me demande quel a été le volume total d’énergie consommée, plus encore que le prix.