3 points par xguru 2021-02-19 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Vitesse d’entraînement améliorée de 7x par rapport au modèle existant T5 (Text-to-Text Transfer Transformer)

  • Algorithme MoE (Mixture-of-Experts) modifié appelé Switch Routing, qui applique des paramètres différents selon les valeurs d’entrée

  • Utilisation de Mesh-Tensorflow pour l’entraînement du modèle (Model Parallelism)

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.