9 points par xguru 2023-12-15 | 1 commentaires | Partager sur WhatsApp
  • Développement puis application d’une technique de Depth Up-Scaling afin de maximiser les capacités de Llama2 7B
  • D’après les benchmarks, le modèle affiche d’excellentes performances parmi les modèles de moins de 30 milliards de paramètres, et surpasse QWEN, six fois plus grand, ainsi que le récent modèle Mixtral 8x7B
    • 1re place sur le leaderboard OpenLLM avec un score de 74,2. Le QWEN-72B d’Alibaba obtient 73,6, et Mixtral-8x7B 72,6
  • Le fine-tuning Instruction est bien appliqué
  • Comme le modèle publié cette fois est basé sur l’anglais, ses performances en coréen peuvent être limitées

1 commentaires

 
xguru 2023-12-15