Qwen2.5 - publication de plusieurs modèles foundation

xguru · 2024-09-20T11:22:54+09:00

Qwen2.5 comprend des modèles spécialisés, dont le LLM Qwen2.5, Qwen2.5-Coder pour le code et Qwen2.5-Math pour les mathématiques Tous les modèles open weight sont des modèles de langage dense decoder-only et sont proposés en plusieurs tailles, de 0.5B à 72B Tous les modèles open source, à l’exception des modèles 3B et 72B, sont fournis sous licence Apache 2.0 Les modèles de langage flagship Qwen-Plus et Qwen-Turbo sont disponibles via API dans Model Studio Qwen2-VL-72B a également été publié en open source, avec de meilleures performances que la version du mois dernier Caractéristiques de Qwen2.5 Préentraîné sur un vaste jeu de données allant jusqu’à 18 trillions de tokens, il dispose de connaissances nettement plus étendues que Qwen2 (MMLU: 85+) Ses capacités en code (HumanEval 85+) et en mathématiques (MATH 80+) se sont également fortement améliorées Le suivi d’instructions, la génération de longs textes (plus de 8K tokens), la compréhension de données structurées (par ex. des tableaux) et la production de sorties structurées comme le JSON ont été grandement améliorés Il est plus robuste à la diversité des system prompts, ce qui facilite la définition des rôles et des contraintes d’un chatbot Comme Qwen2, les modèles de langage Qwen2.5 prennent en charge jusqu’à 128K tokens et peuvent générer jusqu’à 8K tokens Ils prennent en charge plus de 29 langues, dont le chinois, l’anglais, le français, l’espagnol, le portugais, l’allemand, l’italien, le russe, le japonais, le coréen, le vietnamien, le thaï et l’arabe Performances Qwen2.5 Les performances de Qwen2.5-72B, le plus grand modèle open source (modèle de langage dense decoder-only de 72B de paramètres), sont comparées à celles de grands modèles open source comme Llama-3.1-70B et Mistral-Large-V2 Des résultats complets des versions instruction-tuned sont présentés sur divers benchmarks, afin d’évaluer à la fois les capacités des modèles et les préférences humaines Au-delà des modèles de langage instruction-tuned, le modèle de base Qwen2.5-72B affiche aussi des performances de tout premier plan, même face à des modèles plus grands comme Llama-3-405B La dernière version du modèle basé sur API Qwen-Plus est comparée à des modèles propriétaires et open source bien connus comme GPT4-o, Claude-3.5-Sonnet, Llama-3.1-405B et DeepSeek-V2.5 Qwen-Plus dépasse nettement DeepSeek-V2.5 et atteint un niveau comparable à Llama-3.1-405B, mais reste en retrait face à GPT4-o et Claude-3.5-Sonnet sur certains aspects Qwen2.5-14B et Qwen2.5-32B sont réintroduits. Ces modèles surpassent des modèles de référence de taille similaire ou plus grande, comme Phi-3.5-MoE-Instruct et Gemma2-27B-IT Le modèle basé sur API Qwen-Turbo fournit un service rapide à un prix raisonnable et affiche des performances très compétitives par rapport aux deux modèles open source Qwen2.5-3B, avec environ 3 milliards de paramètres, offre des performances très impressionnantes et se montre plus efficace et plus capable que la version précédente Au-delà des améliorations des évaluations de benchmark, la méthodologie de post-entraînement a également été améliorée. Les quatre principales mises à jour sont la prise en charge de la génération de longs textes jusqu’à 8K tokens, une nette amélioration de la compréhension des données structurées, une génération plus fiable de sorties structurées comme le format JSON, et de meilleures performances avec divers system prompts, utiles pour l’attribution de rôles Qwen2.5-Coder Depuis la sortie de CodeQwen1.5, de nombreux utilisateurs s’appuient sur ce modèle pour diverses tâches de code, comme le débogage, les réponses aux questions liées au code et les suggestions de code La dernière version, Qwen2.5-Coder, a été spécialement conçue pour les applications de programmation Malgré sa petite taille, elle démontre d’excellentes capacités de code, allant jusqu’à surpasser des modèles de langage plus grands sur divers langages de programmation et tâches Qwen2.5-Math Le mois dernier, Qwen2-Math, premier modèle de langage dédié aux mathématiques, a été lancé. Par rapport à Qwen2-Math, Qwen2.5-Math a été préentraîné sur un volume bien plus important de données liées aux mathématiques, y compris des données synthétiques générées par Qwen2-Math Cette fois, la prise en charge du chinois a été étendue, et les capacités CoT, PoT et TIR ont été ajoutées afin de renforcer le raisonnement Les performances globales de Qwen2.5-Math-72B-Instruct dépassent celles de Qwen2-Math-72B-Instruct et de GPT4-o, et même un très petit modèle expert comme Qwen2.5-Math-1.5B-Instruct peut afficher des performances très compétitives face à de grands modèles de langage Développer avec Qwen2.5 Pour utiliser Qwen2.5 avec vLLM, il est possible de déployer un service compatible OpenAI API avec la commande suivante : Qwen2.5 prend en charge le tool calling intégré de vllm. Cette fonctionnalité nécessite vllm>=0.6 Qwen2.5 prend également en charge le tool calling d’Ollama La prise en charge du tool calling dans transformers de Hugging Face est également disponible Auparavant, Qwen-Agent prenait en charge le tool calling à l’aide de son propre template Qwen2, et Qwen2.5 reste compatible avec le template Qwen2 ainsi qu’avec Qwen-Agent Et ensuite ? L’équipe se réjouit de publier simultanément un grand nombre de modèles de haute qualité, tout en reconnaissant qu’il reste des défis majeurs Les sorties récentes montrent les efforts menés pour développer de solides modèles foundation dans les domaines du langage, de la vision-langage et de l’audio-langage Il reste toutefois essentiel d’intégrer ces différentes modalités dans un seul modèle capable de traiter de manière fluide les informations dans tous les domaines Les capacités de raisonnement ont été améliorées grâce au data scaling, mais, inspirée par les récents progrès de l’apprentissage par renforcement, l’équipe travaille aussi à améliorer davantage le raisonnement des modèles en augmentant l’inference compute

(qwenlm.github.io)

7 points par xguru 2024-09-20 | 1 commentaires | Partager sur WhatsApp

Qwen2.5 comprend des modèles spécialisés, dont le LLM Qwen2.5, Qwen2.5-Coder pour le code et Qwen2.5-Math pour les mathématiques
Tous les modèles open weight sont des modèles de langage dense decoder-only et sont proposés en plusieurs tailles, de 0.5B à 72B
Tous les modèles open source, à l’exception des modèles 3B et 72B, sont fournis sous licence Apache 2.0
Les modèles de langage flagship Qwen-Plus et Qwen-Turbo sont disponibles via API dans Model Studio
Qwen2-VL-72B a également été publié en open source, avec de meilleures performances que la version du mois dernier

Caractéristiques de Qwen2.5

Préentraîné sur un vaste jeu de données allant jusqu’à 18 trillions de tokens, il dispose de connaissances nettement plus étendues que Qwen2 (MMLU: 85+)
Ses capacités en code (HumanEval 85+) et en mathématiques (MATH 80+) se sont également fortement améliorées
Le suivi d’instructions, la génération de longs textes (plus de 8K tokens), la compréhension de données structurées (par ex. des tableaux) et la production de sorties structurées comme le JSON ont été grandement améliorés
Il est plus robuste à la diversité des system prompts, ce qui facilite la définition des rôles et des contraintes d’un chatbot
Comme Qwen2, les modèles de langage Qwen2.5 prennent en charge jusqu’à 128K tokens et peuvent générer jusqu’à 8K tokens
Ils prennent en charge plus de 29 langues, dont le chinois, l’anglais, le français, l’espagnol, le portugais, l’allemand, l’italien, le russe, le japonais, le coréen, le vietnamien, le thaï et l’arabe

Performances

Qwen2.5

Les performances de Qwen2.5-72B, le plus grand modèle open source (modèle de langage dense decoder-only de 72B de paramètres), sont comparées à celles de grands modèles open source comme Llama-3.1-70B et Mistral-Large-V2
Des résultats complets des versions instruction-tuned sont présentés sur divers benchmarks, afin d’évaluer à la fois les capacités des modèles et les préférences humaines
Au-delà des modèles de langage instruction-tuned, le modèle de base Qwen2.5-72B affiche aussi des performances de tout premier plan, même face à des modèles plus grands comme Llama-3-405B
La dernière version du modèle basé sur API Qwen-Plus est comparée à des modèles propriétaires et open source bien connus comme GPT4-o, Claude-3.5-Sonnet, Llama-3.1-405B et DeepSeek-V2.5
- Qwen-Plus dépasse nettement DeepSeek-V2.5 et atteint un niveau comparable à Llama-3.1-405B, mais reste en retrait face à GPT4-o et Claude-3.5-Sonnet sur certains aspects
Qwen2.5-14B et Qwen2.5-32B sont réintroduits. Ces modèles surpassent des modèles de référence de taille similaire ou plus grande, comme Phi-3.5-MoE-Instruct et Gemma2-27B-IT
Le modèle basé sur API Qwen-Turbo fournit un service rapide à un prix raisonnable et affiche des performances très compétitives par rapport aux deux modèles open source
Qwen2.5-3B, avec environ 3 milliards de paramètres, offre des performances très impressionnantes et se montre plus efficace et plus capable que la version précédente
Au-delà des améliorations des évaluations de benchmark, la méthodologie de post-entraînement a également été améliorée. Les quatre principales mises à jour sont la prise en charge de la génération de longs textes jusqu’à 8K tokens, une nette amélioration de la compréhension des données structurées, une génération plus fiable de sorties structurées comme le format JSON, et de meilleures performances avec divers system prompts, utiles pour l’attribution de rôles

Qwen2.5-Coder

Depuis la sortie de CodeQwen1.5, de nombreux utilisateurs s’appuient sur ce modèle pour diverses tâches de code, comme le débogage, les réponses aux questions liées au code et les suggestions de code
La dernière version, Qwen2.5-Coder, a été spécialement conçue pour les applications de programmation
Malgré sa petite taille, elle démontre d’excellentes capacités de code, allant jusqu’à surpasser des modèles de langage plus grands sur divers langages de programmation et tâches

Qwen2.5-Math

Le mois dernier, Qwen2-Math, premier modèle de langage dédié aux mathématiques, a été lancé. Par rapport à Qwen2-Math, Qwen2.5-Math a été préentraîné sur un volume bien plus important de données liées aux mathématiques, y compris des données synthétiques générées par Qwen2-Math
Cette fois, la prise en charge du chinois a été étendue, et les capacités CoT, PoT et TIR ont été ajoutées afin de renforcer le raisonnement
Les performances globales de Qwen2.5-Math-72B-Instruct dépassent celles de Qwen2-Math-72B-Instruct et de GPT4-o, et même un très petit modèle expert comme Qwen2.5-Math-1.5B-Instruct peut afficher des performances très compétitives face à de grands modèles de langage

Développer avec Qwen2.5

Pour utiliser Qwen2.5 avec vLLM, il est possible de déployer un service compatible OpenAI API avec la commande suivante :
Qwen2.5 prend en charge le tool calling intégré de vllm. Cette fonctionnalité nécessite vllm>=0.6
Qwen2.5 prend également en charge le tool calling d’Ollama
La prise en charge du tool calling dans transformers de Hugging Face est également disponible
Auparavant, Qwen-Agent prenait en charge le tool calling à l’aide de son propre template Qwen2, et Qwen2.5 reste compatible avec le template Qwen2 ainsi qu’avec Qwen-Agent

Et ensuite ?

L’équipe se réjouit de publier simultanément un grand nombre de modèles de haute qualité, tout en reconnaissant qu’il reste des défis majeurs
Les sorties récentes montrent les efforts menés pour développer de solides modèles foundation dans les domaines du langage, de la vision-langage et de l’audio-langage
Il reste toutefois essentiel d’intégrer ces différentes modalités dans un seul modèle capable de traiter de manière fluide les informations dans tous les domaines
Les capacités de raisonnement ont été améliorées grâce au data scaling, mais, inspirée par les récents progrès de l’apprentissage par renforcement, l’équipe travaille aussi à améliorer davantage le raisonnement des modèles en augmentant l’inference compute

1 commentaires

xguru 2024-09-20

Alibaba, annonce du modèle d’IA open source QWEN
Alibaba, annonce du modèle Qwen 2