- Développement en cours de deux implémentations pouvant passer à l’échelle GPT-3+
→ GPT-Neo : code basé sur Tensorflow-mesh (TPU)
→ GPT-Neox : code basé sur DeepSpeed (GPU)
-
L’entraînement à l’échelle de GPT-2 est actuellement terminé et l’évaluation du modèle est en cours d’examen
-
Testé jusqu’à 200 milliards de paramètres avec un entraînement en une seule étape
Aucun commentaire pour le moment.