7 points par xguru 2021-01-19 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Développement en cours de deux implémentations pouvant passer à l’échelle GPT-3+

→ GPT-Neo : code basé sur Tensorflow-mesh (TPU)

→ GPT-Neox : code basé sur DeepSpeed (GPU)

  • L’entraînement à l’échelle de GPT-2 est actuellement terminé et l’évaluation du modèle est en cours d’examen

  • Testé jusqu’à 200 milliards de paramètres avec un entraînement en une seule étape

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.