- Avec l’usage croissant des LLM, il devient important de les appliquer à de longues séquences : résumé de documents, génération de code, prédiction de séquences de protéines, etc.
- Cependant, la plupart des LLM open source (LLaMA, MPT, Falcon, etc.) sont entraînés avec une longueur de séquence maximale de 2K tokens
- XGen-7B a été entraîné sur 1,5T tokens avec une longueur de séquence allant jusqu’à 8K
- Sur les benchmarks NLP standard, il offre des performances équivalentes ou supérieures à celles de MPT, Falcon, LLaMA, Redpajama et OpenLLaMA à taille de modèle comparable
- Excellents résultats à la fois sur les tâches de texte (MMLU, QA) et de code (HumanEval)
- Entraînement sur TPU-v4 : environ 150K $ de coût pour 1T tokens
Aucun commentaire pour le moment.