Alibaba dévoile les modèles Qwen 2

xguru · 2024-06-08T10:02:01+09:00

Qwen2 est une évolution de Qwen1.5 et comprend des modèles préentraînés et affinés par instruction en 5 tailles Les tailles de modèle sont Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B En plus de l’anglais et du chinois, des données ont été ajoutées pour l’entraînement sur 27 langues Le modèle affiche des performances de pointe sur de nombreux benchmarks, avec de fortes améliorations en code et en mathématiques Les modèles Qwen2-7B-Instruct et Qwen2-72B-Instruct prennent en charge une longueur de contexte étendue jusqu’à 128K tokens grâce à YARN Informations sur les modèles Qwen2 Group Query Attention (GQA) est appliqué à toutes les tailles de modèle afin d’améliorer la vitesse d’inférence et de réduire l’usage mémoire Pour les petits modèles, la technique d’embedding tying est privilégiée Les modèles affinés par instruction évaluent leur capacité à gérer de longues fenêtres de contexte via la tâche Needle in a Haystack Grâce à la technologie YARN, Qwen2-7B-Instruct et Qwen2-72B-Instruct peuvent traiter jusqu’à 128K tokens Performances Le préentraînement et l’affinage par instruction ont été réalisés sur des jeux de données couvrant, en plus de l’anglais et du chinois, 27 autres langues, renforçant ainsi les capacités multilingues La capacité à gérer le code-switching s’est nettement améliorée En s’appuyant sur un jeu de données de préentraînement et des méthodes d’apprentissage optimisées, Qwen2-72B surpasse des modèles récents comme Llama-3-70B Le post-entraînement a encore renforcé les capacités en code, mathématiques, raisonnement, exécution d’instructions et compréhension multilingue, tout en améliorant l’alignement avec les valeurs humaines Sur 16 benchmarks, Qwen2-72B-Instruct dépasse largement Qwen1.5-72B-Chat et affiche des performances comparables à Llama-3-70B-Instruct Les modèles Qwen2 de plus petite taille surpassent eux aussi des modèles SOTA de taille similaire ou supérieure, avec des résultats particulièrement marquants en code et sur les indicateurs liés au chinois Points clés En intégrant l’expérience et les données d’apprentissage en code de CodeQwen1.5, Qwen2-72B-Instruct améliore fortement ses performances dans divers langages de programmation L’utilisation de jeux de données vastes et de haute qualité renforce les capacités de résolution de problèmes mathématiques de Qwen2-72B-Instruct Qwen2-72B-Instruct peut traiter parfaitement des tâches d’extraction d’informations sur une longueur de 128K Une solution d’agent efficace pour le traitement de documents de 1 million de tokens a également été publiée en open source Dans l’évaluation du taux de réponses nuisibles sur 4 types de requêtes multilingues dangereuses, Qwen2-72B-Instruct montre un niveau de sécurité comparable à GPT-4 et nettement supérieur à Mistral-8x22B Utilisations de Qwen2 Tous les modèles sont publiés sur Hugging Face et ModelScope et peuvent être utilisés librement Qwen2-72B et les modèles affinés par instruction adoptent la Qianwen License, tandis que les autres modèles utilisent la licence Apache 2.0 Pour utiliser Qwen2 avec divers frameworks tiers, consulter la documentation de chaque framework ainsi que la documentation officielle Feuille de route de Qwen2 L’équipe prévoit d’entraîner des modèles Qwen2 plus grands afin d’explorer le scaling des modèles en parallèle du scaling des données Il est également prévu d’étendre Qwen2 en un modèle de langage multimodal capable de comprendre des informations visuelles et audio De nouveaux modèles continueront d’être publiés en open source afin d’accélérer le développement de l’IA open source

(qwenlm.github.io)

5 points par xguru 2024-06-08 | 1 commentaires | Partager sur WhatsApp

Qwen2 est une évolution de Qwen1.5 et comprend des modèles préentraînés et affinés par instruction en 5 tailles
- Les tailles de modèle sont Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B
En plus de l’anglais et du chinois, des données ont été ajoutées pour l’entraînement sur 27 langues
Le modèle affiche des performances de pointe sur de nombreux benchmarks, avec de fortes améliorations en code et en mathématiques
Les modèles Qwen2-7B-Instruct et Qwen2-72B-Instruct prennent en charge une longueur de contexte étendue jusqu’à 128K tokens grâce à YARN

Informations sur les modèles Qwen2

Group Query Attention (GQA) est appliqué à toutes les tailles de modèle afin d’améliorer la vitesse d’inférence et de réduire l’usage mémoire
Pour les petits modèles, la technique d’embedding tying est privilégiée
Les modèles affinés par instruction évaluent leur capacité à gérer de longues fenêtres de contexte via la tâche Needle in a Haystack
Grâce à la technologie YARN, Qwen2-7B-Instruct et Qwen2-72B-Instruct peuvent traiter jusqu’à 128K tokens

Performances

Le préentraînement et l’affinage par instruction ont été réalisés sur des jeux de données couvrant, en plus de l’anglais et du chinois, 27 autres langues, renforçant ainsi les capacités multilingues
La capacité à gérer le code-switching s’est nettement améliorée
En s’appuyant sur un jeu de données de préentraînement et des méthodes d’apprentissage optimisées, Qwen2-72B surpasse des modèles récents comme Llama-3-70B
Le post-entraînement a encore renforcé les capacités en code, mathématiques, raisonnement, exécution d’instructions et compréhension multilingue, tout en améliorant l’alignement avec les valeurs humaines
Sur 16 benchmarks, Qwen2-72B-Instruct dépasse largement Qwen1.5-72B-Chat et affiche des performances comparables à Llama-3-70B-Instruct
Les modèles Qwen2 de plus petite taille surpassent eux aussi des modèles SOTA de taille similaire ou supérieure, avec des résultats particulièrement marquants en code et sur les indicateurs liés au chinois

Points clés

En intégrant l’expérience et les données d’apprentissage en code de CodeQwen1.5, Qwen2-72B-Instruct améliore fortement ses performances dans divers langages de programmation
L’utilisation de jeux de données vastes et de haute qualité renforce les capacités de résolution de problèmes mathématiques de Qwen2-72B-Instruct
Qwen2-72B-Instruct peut traiter parfaitement des tâches d’extraction d’informations sur une longueur de 128K
Une solution d’agent efficace pour le traitement de documents de 1 million de tokens a également été publiée en open source
Dans l’évaluation du taux de réponses nuisibles sur 4 types de requêtes multilingues dangereuses, Qwen2-72B-Instruct montre un niveau de sécurité comparable à GPT-4 et nettement supérieur à Mistral-8x22B

Utilisations de Qwen2

Tous les modèles sont publiés sur Hugging Face et ModelScope et peuvent être utilisés librement
Qwen2-72B et les modèles affinés par instruction adoptent la Qianwen License, tandis que les autres modèles utilisent la licence Apache 2.0
Pour utiliser Qwen2 avec divers frameworks tiers, consulter la documentation de chaque framework ainsi que la documentation officielle

Feuille de route de Qwen2

L’équipe prévoit d’entraîner des modèles Qwen2 plus grands afin d’explorer le scaling des modèles en parallèle du scaling des données
Il est également prévu d’étendre Qwen2 en un modèle de langage multimodal capable de comprendre des informations visuelles et audio
De nouveaux modèles continueront d’être publiés en open source afin d’accélérer le développement de l’IA open source

1 commentaires

xguru 2024-06-08

Alibaba publie le modèle d'IA open source QWEN
Qwen1.5-110B : premier modèle 100B+ de la série open source LLM Qwen1.5 d'Alibaba