GPT-Neo : un projet pour rendre open source/gratuits des modèles à l’échelle de GPT-3

xguru · 2021-01-19T09:54:11+09:00

Développement en cours de deux implémentations pouvant passer à l’échelle GPT-3+ → GPT-Neo : code basé sur Tensorflow-mesh (TPU) → GPT-Neox : code basé sur DeepSpeed (GPU) L’entraînement à l’échelle de GPT-2 est actuellement terminé et l’évaluation du modèle est en cours d’examen Testé jusqu’à 200 milliards de paramètres avec un entraînement en une seule étape

(github.com)

7 points par xguru 2021-01-19 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Développement en cours de deux implémentations pouvant passer à l’échelle GPT-3+

→ GPT-Neo : code basé sur Tensorflow-mesh (TPU)

→ GPT-Neox : code basé sur DeepSpeed (GPU)

L’entraînement à l’échelle de GPT-2 est actuellement terminé et l’évaluation du modèle est en cours d’examen
Testé jusqu’à 200 milliards de paramètres avec un entraînement en une seule étape

GPT-Neo : un projet pour rendre open source/gratuits des modèles à l’échelle de GPT-3

À lire aussi

Aucun commentaire pour le moment.