- Développement puis application d’une technique de Depth Up-Scaling afin de maximiser les capacités de Llama2 7B
- D’après les benchmarks, le modèle affiche d’excellentes performances parmi les modèles de moins de 30 milliards de paramètres, et surpasse QWEN, six fois plus grand, ainsi que le récent modèle Mixtral 8x7B
- 1re place sur le leaderboard OpenLLM avec un score de 74,2. Le QWEN-72B d’Alibaba obtient 73,6, et Mixtral-8x7B 72,6
- Le fine-tuning Instruction est bien appliqué
- Comme le modèle publié cette fois est basé sur l’anglais, ses performances en coréen peuvent être limitées
1 commentaires
Upstage est l’entreprise à l’origine d’AskUp, une IA utilisable sur KakaoTalk.
Alibaba dévoile le modèle d’IA open source QWEN
Mistral AI dévoile Mixtral 8x7B, un modèle supérieur à Llama 2 70B