XGen-7B - un LLM 7B entraîné sur 1,5T tokens avec une longueur de séquence allant jusqu’à 8K

(blog.salesforceairesearch.com)

4 points par xguru 2023-07-01 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Avec l’usage croissant des LLM, il devient important de les appliquer à de longues séquences : résumé de documents, génération de code, prédiction de séquences de protéines, etc.
Cependant, la plupart des LLM open source (LLaMA, MPT, Falcon, etc.) sont entraînés avec une longueur de séquence maximale de 2K tokens
XGen-7B a été entraîné sur 1,5T tokens avec une longueur de séquence allant jusqu’à 8K
Sur les benchmarks NLP standard, il offre des performances équivalentes ou supérieures à celles de MPT, Falcon, LLaMA, Redpajama et OpenLLaMA à taille de modèle comparable
Excellents résultats à la fois sur les tâches de texte (MMLU, QA) et de code (HumanEval)
Entraînement sur TPU-v4 : environ 150K $ de coût pour 1T tokens

À lire aussi