5 points par xguru 2024-04-28 | 1 commentaires | Partager sur WhatsApp
  • La communauté open source voit récemment affluer des grands modèles comptant plus de 100 milliards de paramètres, avec des performances remarquables dans les benchmarks et les chatbots
  • Alibaba a lui aussi dévoilé Qwen1.5-110B, le premier modèle 100B+ de la série Qwen1.5
  • Dans l’évaluation du modèle de base, il a atteint des performances comparables à Meta-Llama3-70B, et a montré d’excellents résultats dans les évaluations de chat, notamment MT-Bench et AlpacaEval 2.0

Caractéristiques du modèle Qwen1.5-110B

  • Qwen1.5-110B est similaire aux autres modèles Qwen1.5 et repose sur la même architecture de décodeur Transformer
  • Il est doté de Grouped Query Attention (GQA), ce qui le rend efficace pour le model serving
  • Il prend en charge une longueur de contexte de 32K tokens et constitue un modèle multilingue prenant en charge de nombreuses langues, dont l’anglais, le chinois, le français, l’espagnol, l’allemand, le russe, le coréen, le japonais, le vietnamien et l’arabe

Résultats de l’évaluation du modèle de langage de base

  • Une série d’évaluations a été menée sur le modèle de langage de base, avec une comparaison aux récents modèles de langage SOTA Meta-Llama3-70B et Mixtral-8x22B
  • Selon les résultats, le nouveau modèle 110B est au moins compétitif avec le modèle Llama-3-70B sur les capacités fondamentales
  • Comme la recette de pré-entraînement et de post-entraînement n’a pas été radicalement modifiée dans ce modèle, le gain de performance par rapport au 72B semble provenir de l’augmentation de la taille du modèle

Résultats de l’évaluation du modèle de chat

  • Le modèle de chat a été testé sur MT-Bench et AlpacaEval 2.0
  • Par rapport au modèle 72B publié précédemment, le 110B affiche des performances nettement supérieures sur les deux benchmarks
  • Les améliorations constantes observées dans les évaluations indiquent qu’un modèle de langage de base plus grand et plus puissant peut conduire à un meilleur modèle de chat, même sans modification majeure de la recette de post-entraînement

Développer avec Qwen1.5-110B

  • Pour découvrir comment l’utiliser avec Transformers, vLLM, llama.cpp, Ollama, LMStudio, SkyPilot, Axolotl et LLaMA-Factory, il est recommandé de lire le blog Qwen1.5

Conclusion

  • Qwen1.5-110B est le plus grand modèle de la série Qwen1.5, et le premier de la série à dépasser les 100 milliards de paramètres
  • Il affiche des performances compétitives face au récent modèle SOTA Llama-3-70B, et se montre nettement supérieur au modèle 72B
  • Cela montre qu’il existe encore un fort potentiel dans l’augmentation de la taille des modèles pour améliorer les performances
  • La publication de Llama-3 montre l’importance d’un passage à l’échelle extrême des données, mais l’équipe estime que les prochaines publications pourront tirer parti des deux approches en augmentant à la fois les données et la taille des modèles