MosaicML dévoile le modèle MPT-7B-8K

xguru · 2023-07-21T10:02:02+09:00

LLM open source de 7B paramètres prenant en charge une longueur de contexte de 8k En plus de MPT-7B, entraîné pendant 3 jours sur 256 NVidia H100 à l’aide de 500B tokens de données 3 modèles publiés : MPT-7B-8k, MPT-7B-8k-Instruct, MPT-7B-8k-Chat Utilisable à des fins commerciales Prise en charge des entrées 8k grâce à ALiBi (Attention with Linear Biases Enables Input Length Extrapolation) Entraînement et inférence rapides avec FlashAttention et FasterTrasformer

(mosaicml.com)

9 points par xguru 2023-07-21 | Aucun commentaire pour le moment. | Partager sur WhatsApp

LLM open source de 7B paramètres prenant en charge une longueur de contexte de 8k
En plus de MPT-7B, entraîné pendant 3 jours sur 256 NVidia H100 à l’aide de 500B tokens de données
3 modèles publiés : MPT-7B-8k, MPT-7B-8k-Instruct, MPT-7B-8k-Chat
Utilisable à des fins commerciales
Prise en charge des entrées 8k grâce à ALiBi (Attention with Linear Biases Enables Input Length Extrapolation)
Entraînement et inférence rapides avec FlashAttention et FasterTrasformer

MosaicML dévoile le modèle MPT-7B-8K

À lire aussi

Aucun commentaire pour le moment.