Qwen1.5-110B : le premier modèle 100B+ de la série LLM open source Qwen1.5 d’Alibaba

xguru · 2024-04-28T09:30:03+09:00

La communauté open source voit récemment affluer des grands modèles comptant plus de 100 milliards de paramètres, avec des performances remarquables dans les benchmarks et les chatbots Alibaba a lui aussi dévoilé Qwen1.5-110B, le premier modèle 100B+ de la série Qwen1.5 Dans l’évaluation du modèle de base, il a atteint des performances comparables à Meta-Llama3-70B, et a montré d’excellents résultats dans les évaluations de chat, notamment MT-Bench et AlpacaEval 2.0 Caractéristiques du modèle Qwen1.5-110B Qwen1.5-110B est similaire aux autres modèles Qwen1.5 et repose sur la même architecture de décodeur Transformer Il est doté de Grouped Query Attention (GQA), ce qui le rend efficace pour le model serving Il prend en charge une longueur de contexte de 32K tokens et constitue un modèle multilingue prenant en charge de nombreuses langues, dont l’anglais, le chinois, le français, l’espagnol, l’allemand, le russe, le coréen, le japonais, le vietnamien et l’arabe Résultats de l’évaluation du modèle de langage de base Une série d’évaluations a été menée sur le modèle de langage de base, avec une comparaison aux récents modèles de langage SOTA Meta-Llama3-70B et Mixtral-8x22B Selon les résultats, le nouveau modèle 110B est au moins compétitif avec le modèle Llama-3-70B sur les capacités fondamentales Comme la recette de pré-entraînement et de post-entraînement n’a pas été radicalement modifiée dans ce modèle, le gain de performance par rapport au 72B semble provenir de l’augmentation de la taille du modèle Résultats de l’évaluation du modèle de chat Le modèle de chat a été testé sur MT-Bench et AlpacaEval 2.0 Par rapport au modèle 72B publié précédemment, le 110B affiche des performances nettement supérieures sur les deux benchmarks Les améliorations constantes observées dans les évaluations indiquent qu’un modèle de langage de base plus grand et plus puissant peut conduire à un meilleur modèle de chat, même sans modification majeure de la recette de post-entraînement Développer avec Qwen1.5-110B Pour découvrir comment l’utiliser avec Transformers, vLLM, llama.cpp, Ollama, LMStudio, SkyPilot, Axolotl et LLaMA-Factory, il est recommandé de lire le blog Qwen1.5 Conclusion Qwen1.5-110B est le plus grand modèle de la série Qwen1.5, et le premier de la série à dépasser les 100 milliards de paramètres Il affiche des performances compétitives face au récent modèle SOTA Llama-3-70B, et se montre nettement supérieur au modèle 72B Cela montre qu’il existe encore un fort potentiel dans l’augmentation de la taille des modèles pour améliorer les performances La publication de Llama-3 montre l’importance d’un passage à l’échelle extrême des données, mais l’équipe estime que les prochaines publications pourront tirer parti des deux approches en augmentant à la fois les données et la taille des modèles

(qwenlm.github.io)

5 points par xguru 2024-04-28 | 1 commentaires | Partager sur WhatsApp

La communauté open source voit récemment affluer des grands modèles comptant plus de 100 milliards de paramètres, avec des performances remarquables dans les benchmarks et les chatbots
Alibaba a lui aussi dévoilé Qwen1.5-110B, le premier modèle 100B+ de la série Qwen1.5
Dans l’évaluation du modèle de base, il a atteint des performances comparables à Meta-Llama3-70B, et a montré d’excellents résultats dans les évaluations de chat, notamment MT-Bench et AlpacaEval 2.0

Caractéristiques du modèle Qwen1.5-110B

Qwen1.5-110B est similaire aux autres modèles Qwen1.5 et repose sur la même architecture de décodeur Transformer
Il est doté de Grouped Query Attention (GQA), ce qui le rend efficace pour le model serving
Il prend en charge une longueur de contexte de 32K tokens et constitue un modèle multilingue prenant en charge de nombreuses langues, dont l’anglais, le chinois, le français, l’espagnol, l’allemand, le russe, le coréen, le japonais, le vietnamien et l’arabe

Résultats de l’évaluation du modèle de langage de base

Une série d’évaluations a été menée sur le modèle de langage de base, avec une comparaison aux récents modèles de langage SOTA Meta-Llama3-70B et Mixtral-8x22B
Selon les résultats, le nouveau modèle 110B est au moins compétitif avec le modèle Llama-3-70B sur les capacités fondamentales
Comme la recette de pré-entraînement et de post-entraînement n’a pas été radicalement modifiée dans ce modèle, le gain de performance par rapport au 72B semble provenir de l’augmentation de la taille du modèle

Résultats de l’évaluation du modèle de chat

Le modèle de chat a été testé sur MT-Bench et AlpacaEval 2.0
Par rapport au modèle 72B publié précédemment, le 110B affiche des performances nettement supérieures sur les deux benchmarks
Les améliorations constantes observées dans les évaluations indiquent qu’un modèle de langage de base plus grand et plus puissant peut conduire à un meilleur modèle de chat, même sans modification majeure de la recette de post-entraînement

Développer avec Qwen1.5-110B

Pour découvrir comment l’utiliser avec Transformers, vLLM, llama.cpp, Ollama, LMStudio, SkyPilot, Axolotl et LLaMA-Factory, il est recommandé de lire le blog Qwen1.5

Conclusion

Qwen1.5-110B est le plus grand modèle de la série Qwen1.5, et le premier de la série à dépasser les 100 milliards de paramètres
Il affiche des performances compétitives face au récent modèle SOTA Llama-3-70B, et se montre nettement supérieur au modèle 72B
Cela montre qu’il existe encore un fort potentiel dans l’augmentation de la taille des modèles pour améliorer les performances
La publication de Llama-3 montre l’importance d’un passage à l’échelle extrême des données, mais l’équipe estime que les prochaines publications pourront tirer parti des deux approches en augmentant à la fois les données et la taille des modèles

1 commentaires

xguru 2024-04-28

Alibaba dévoile QWEN, son modèle d’IA open source