MosaicML dévoile le modèle MPT-7B-8K
(mosaicml.com)- LLM open source de 7B paramètres prenant en charge une longueur de contexte de 8k
- En plus de MPT-7B, entraîné pendant 3 jours sur 256 NVidia H100 à l’aide de 500B tokens de données
- 3 modèles publiés : MPT-7B-8k, MPT-7B-8k-Instruct, MPT-7B-8k-Chat
- Utilisable à des fins commerciales
- Prise en charge des entrées 8k grâce à ALiBi (Attention with Linear Biases Enables Input Length Extrapolation)
- Entraînement et inférence rapides avec FlashAttention et FasterTrasformer
Aucun commentaire pour le moment.