7 points par xguru 2024-09-20 | 1 commentaires | Partager sur WhatsApp
  • Qwen2.5 comprend des modèles spécialisés, dont le LLM Qwen2.5, Qwen2.5-Coder pour le code et Qwen2.5-Math pour les mathématiques
  • Tous les modèles open weight sont des modèles de langage dense decoder-only et sont proposés en plusieurs tailles, de 0.5B à 72B
  • Tous les modèles open source, à l’exception des modèles 3B et 72B, sont fournis sous licence Apache 2.0
  • Les modèles de langage flagship Qwen-Plus et Qwen-Turbo sont disponibles via API dans Model Studio
  • Qwen2-VL-72B a également été publié en open source, avec de meilleures performances que la version du mois dernier

Caractéristiques de Qwen2.5

  • Préentraîné sur un vaste jeu de données allant jusqu’à 18 trillions de tokens, il dispose de connaissances nettement plus étendues que Qwen2 (MMLU: 85+)
  • Ses capacités en code (HumanEval 85+) et en mathématiques (MATH 80+) se sont également fortement améliorées
  • Le suivi d’instructions, la génération de longs textes (plus de 8K tokens), la compréhension de données structurées (par ex. des tableaux) et la production de sorties structurées comme le JSON ont été grandement améliorés
  • Il est plus robuste à la diversité des system prompts, ce qui facilite la définition des rôles et des contraintes d’un chatbot
  • Comme Qwen2, les modèles de langage Qwen2.5 prennent en charge jusqu’à 128K tokens et peuvent générer jusqu’à 8K tokens
  • Ils prennent en charge plus de 29 langues, dont le chinois, l’anglais, le français, l’espagnol, le portugais, l’allemand, l’italien, le russe, le japonais, le coréen, le vietnamien, le thaï et l’arabe

Performances

Qwen2.5

  • Les performances de Qwen2.5-72B, le plus grand modèle open source (modèle de langage dense decoder-only de 72B de paramètres), sont comparées à celles de grands modèles open source comme Llama-3.1-70B et Mistral-Large-V2
  • Des résultats complets des versions instruction-tuned sont présentés sur divers benchmarks, afin d’évaluer à la fois les capacités des modèles et les préférences humaines
  • Au-delà des modèles de langage instruction-tuned, le modèle de base Qwen2.5-72B affiche aussi des performances de tout premier plan, même face à des modèles plus grands comme Llama-3-405B
  • La dernière version du modèle basé sur API Qwen-Plus est comparée à des modèles propriétaires et open source bien connus comme GPT4-o, Claude-3.5-Sonnet, Llama-3.1-405B et DeepSeek-V2.5
    • Qwen-Plus dépasse nettement DeepSeek-V2.5 et atteint un niveau comparable à Llama-3.1-405B, mais reste en retrait face à GPT4-o et Claude-3.5-Sonnet sur certains aspects
  • Qwen2.5-14B et Qwen2.5-32B sont réintroduits. Ces modèles surpassent des modèles de référence de taille similaire ou plus grande, comme Phi-3.5-MoE-Instruct et Gemma2-27B-IT
  • Le modèle basé sur API Qwen-Turbo fournit un service rapide à un prix raisonnable et affiche des performances très compétitives par rapport aux deux modèles open source
  • Qwen2.5-3B, avec environ 3 milliards de paramètres, offre des performances très impressionnantes et se montre plus efficace et plus capable que la version précédente
  • Au-delà des améliorations des évaluations de benchmark, la méthodologie de post-entraînement a également été améliorée. Les quatre principales mises à jour sont la prise en charge de la génération de longs textes jusqu’à 8K tokens, une nette amélioration de la compréhension des données structurées, une génération plus fiable de sorties structurées comme le format JSON, et de meilleures performances avec divers system prompts, utiles pour l’attribution de rôles

Qwen2.5-Coder

  • Depuis la sortie de CodeQwen1.5, de nombreux utilisateurs s’appuient sur ce modèle pour diverses tâches de code, comme le débogage, les réponses aux questions liées au code et les suggestions de code
  • La dernière version, Qwen2.5-Coder, a été spécialement conçue pour les applications de programmation
  • Malgré sa petite taille, elle démontre d’excellentes capacités de code, allant jusqu’à surpasser des modèles de langage plus grands sur divers langages de programmation et tâches

Qwen2.5-Math

  • Le mois dernier, Qwen2-Math, premier modèle de langage dédié aux mathématiques, a été lancé. Par rapport à Qwen2-Math, Qwen2.5-Math a été préentraîné sur un volume bien plus important de données liées aux mathématiques, y compris des données synthétiques générées par Qwen2-Math
  • Cette fois, la prise en charge du chinois a été étendue, et les capacités CoT, PoT et TIR ont été ajoutées afin de renforcer le raisonnement
  • Les performances globales de Qwen2.5-Math-72B-Instruct dépassent celles de Qwen2-Math-72B-Instruct et de GPT4-o, et même un très petit modèle expert comme Qwen2.5-Math-1.5B-Instruct peut afficher des performances très compétitives face à de grands modèles de langage

Développer avec Qwen2.5

  • Pour utiliser Qwen2.5 avec vLLM, il est possible de déployer un service compatible OpenAI API avec la commande suivante :
  • Qwen2.5 prend en charge le tool calling intégré de vllm. Cette fonctionnalité nécessite vllm>=0.6
  • Qwen2.5 prend également en charge le tool calling d’Ollama
  • La prise en charge du tool calling dans transformers de Hugging Face est également disponible
  • Auparavant, Qwen-Agent prenait en charge le tool calling à l’aide de son propre template Qwen2, et Qwen2.5 reste compatible avec le template Qwen2 ainsi qu’avec Qwen-Agent

Et ensuite ?

  • L’équipe se réjouit de publier simultanément un grand nombre de modèles de haute qualité, tout en reconnaissant qu’il reste des défis majeurs
  • Les sorties récentes montrent les efforts menés pour développer de solides modèles foundation dans les domaines du langage, de la vision-langage et de l’audio-langage
  • Il reste toutefois essentiel d’intégrer ces différentes modalités dans un seul modèle capable de traiter de manière fluide les informations dans tous les domaines
  • Les capacités de raisonnement ont été améliorées grâce au data scaling, mais, inspirée par les récents progrès de l’apprentissage par renforcement, l’équipe travaille aussi à améliorer davantage le raisonnement des modèles en augmentant l’inference compute