Google publie en open source Switch Transformer, un modèle d’IA NLP de 1,6 billion de paramètres
(infoq.com)-
Vitesse d’entraînement améliorée de 7x par rapport au modèle existant T5 (Text-to-Text Transfer Transformer)
-
Algorithme MoE (Mixture-of-Experts) modifié appelé Switch Routing, qui applique des paramètres différents selon les valeurs d’entrée
-
Utilisation de Mesh-Tensorflow pour l’entraînement du modèle (Model Parallelism)
Aucun commentaire pour le moment.