25 points par xguru 2023-04-03 | 1 commentaires | Partager sur WhatsApp
  • Un projet open source entièrement développé séparément sous licence Apache 2.0, au lieu du code LLaMA sous licence GPL
  • Une implémentation simple en un seul fichier, sans boilerplate, et numériquement identique au modèle d’origine
  • Prend en charge FlashAttention, la quantification, le fine-tuning LoRA et le pré-entraînement
  • Optimisé pour fonctionner sur du matériel grand public

1 commentaires

 
xguru 2023-04-03

nanoGPT est le code avec lequel Andrej Karpathy, ancien responsable IA chez Tesla, a réécrit minGPT.
nanoGPT - open source pour entraîner/affiner le plus rapidement possible des GPT de taille intermédiaire

FlashAttention