5 points par xguru 2023-08-31 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Offre des longueurs de séquence 4 fois supérieures à celles des systèmes existants, avec un entraînement possible sur des séquences contenant plus d’un million de tokens
  • Les communications sont réduites de plus de 10 fois, ce qui améliore le débit jusqu’à 2,5 fois. Le débit se maintient au-delà de 175 TFlops/GPU
  • Attention entièrement générale et agnostique vis-à-vis de l’implémentation (fonctionne aussi avec des implémentations comme FlashAttention 2)
  • Prise en charge de l’entraînement de grands modèles : fonctionne avec ZeRO-3 pour prendre en charge de grandes tailles de séquence et de modèle
  • Facile à utiliser et très portable, avec un minimum de modifications des frameworks existants

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.