DeepSpeed Ulysses : optimisation système pour l’entraînement de modèles Transformer à longues séquences

xguru · 2023-08-31T11:03:01+09:00

Offre des longueurs de séquence 4 fois supérieures à celles des systèmes existants, avec un entraînement possible sur des séquences contenant plus d’un million de tokens Les communications sont réduites de plus de 10 fois, ce qui améliore le débit jusqu’à 2,5 fois. Le débit se maintient au-delà de 175 TFlops/GPU Attention entièrement générale et agnostique vis-à-vis de l’implémentation (fonctionne aussi avec des implémentations comme FlashAttention 2) Prise en charge de l’entraînement de grands modèles : fonctionne avec ZeRO-3 pour prendre en charge de grandes tailles de séquence et de modèle Facile à utiliser et très portable, avec un minimum de modifications des frameworks existants

(github.com/microsoft)

5 points par xguru 2023-08-31 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Offre des longueurs de séquence 4 fois supérieures à celles des systèmes existants, avec un entraînement possible sur des séquences contenant plus d’un million de tokens
Les communications sont réduites de plus de 10 fois, ce qui améliore le débit jusqu’à 2,5 fois. Le débit se maintient au-delà de 175 TFlops/GPU
Attention entièrement générale et agnostique vis-à-vis de l’implémentation (fonctionne aussi avec des implémentations comme FlashAttention 2)
Prise en charge de l’entraînement de grands modèles : fonctionne avec ZeRO-3 pour prendre en charge de grandes tailles de séquence et de modèle
Facile à utiliser et très portable, avec un minimum de modifications des frameworks existants

DeepSpeed Ulysses : optimisation système pour l’entraînement de modèles Transformer à longues séquences

À lire aussi

Aucun commentaire pour le moment.