- Prévu pour fonctionner sur le supercalculateur Aurora de 2 exaflops, qui devrait être opérationnel d’ici la fin de l’année
- Entraîné sur du texte général, ainsi que sur des documents, données et code scientifiques, il s’agit d’un modèle génératif axé exclusivement sur des usages scientifiques
- Utilisé pour des applications scientifiques comme la biologie des systèmes, la recherche sur le cancer, les sciences du climat, la chimie des polymères et des matériaux, ainsi que la cosmologie
- Basé sur Megatron et DeepSpeed
1 commentaires
Microsoft et Nvidia annoncent MegaTron-NLG 530B, le plus grand modèle de langage au monde
DeepSpeed - la bibliothèque d’optimisation du deep learning publiée par Microsoft