4 points par xguru 2023-07-01 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Avec l’usage croissant des LLM, il devient important de les appliquer à de longues séquences : résumé de documents, génération de code, prédiction de séquences de protéines, etc.
  • Cependant, la plupart des LLM open source (LLaMA, MPT, Falcon, etc.) sont entraînés avec une longueur de séquence maximale de 2K tokens
  • XGen-7B a été entraîné sur 1,5T tokens avec une longueur de séquence allant jusqu’à 8K
  • Sur les benchmarks NLP standard, il offre des performances équivalentes ou supérieures à celles de MPT, Falcon, LLaMA, Redpajama et OpenLLaMA à taille de modèle comparable
  • Excellents résultats à la fois sur les tâches de texte (MMLU, QA) et de code (HumanEval)
  • Entraînement sur TPU-v4 : environ 150K $ de coût pour 1T tokens

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.