- Offre des longueurs de séquence 4 fois supérieures à celles des systèmes existants, avec un entraînement possible sur des séquences contenant plus d’un million de tokens
- Les communications sont réduites de plus de 10 fois, ce qui améliore le débit jusqu’à 2,5 fois. Le débit se maintient au-delà de 175 TFlops/GPU
- Attention entièrement générale et agnostique vis-à-vis de l’implémentation (fonctionne aussi avec des implémentations comme FlashAttention 2)
- Prise en charge de l’entraînement de grands modèles : fonctionne avec ZeRO-3 pour prendre en charge de grandes tailles de séquence et de modèle
- Facile à utiliser et très portable, avec un minimum de modifications des frameworks existants
Aucun commentaire pour le moment.