9 points par xguru 2023-07-21 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • LLM open source de 7B paramètres prenant en charge une longueur de contexte de 8k
  • En plus de MPT-7B, entraîné pendant 3 jours sur 256 NVidia H100 à l’aide de 500B tokens de données
  • 3 modèles publiés : MPT-7B-8k, MPT-7B-8k-Instruct, MPT-7B-8k-Chat
  • Utilisable à des fins commerciales
  • Prise en charge des entrées 8k grâce à ALiBi (Attention with Linear Biases Enables Input Length Extrapolation)
  • Entraînement et inférence rapides avec FlashAttention et FasterTrasformer

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.