5 points par xguru 2024-06-08 | 1 commentaires | Partager sur WhatsApp
  • Qwen2 est une évolution de Qwen1.5 et comprend des modèles préentraînés et affinés par instruction en 5 tailles
    • Les tailles de modèle sont Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B
  • En plus de l’anglais et du chinois, des données ont été ajoutées pour l’entraînement sur 27 langues
  • Le modèle affiche des performances de pointe sur de nombreux benchmarks, avec de fortes améliorations en code et en mathématiques
  • Les modèles Qwen2-7B-Instruct et Qwen2-72B-Instruct prennent en charge une longueur de contexte étendue jusqu’à 128K tokens grâce à YARN

Informations sur les modèles Qwen2

  • Group Query Attention (GQA) est appliqué à toutes les tailles de modèle afin d’améliorer la vitesse d’inférence et de réduire l’usage mémoire
  • Pour les petits modèles, la technique d’embedding tying est privilégiée
  • Les modèles affinés par instruction évaluent leur capacité à gérer de longues fenêtres de contexte via la tâche Needle in a Haystack
  • Grâce à la technologie YARN, Qwen2-7B-Instruct et Qwen2-72B-Instruct peuvent traiter jusqu’à 128K tokens

Performances

  • Le préentraînement et l’affinage par instruction ont été réalisés sur des jeux de données couvrant, en plus de l’anglais et du chinois, 27 autres langues, renforçant ainsi les capacités multilingues
  • La capacité à gérer le code-switching s’est nettement améliorée
  • En s’appuyant sur un jeu de données de préentraînement et des méthodes d’apprentissage optimisées, Qwen2-72B surpasse des modèles récents comme Llama-3-70B
  • Le post-entraînement a encore renforcé les capacités en code, mathématiques, raisonnement, exécution d’instructions et compréhension multilingue, tout en améliorant l’alignement avec les valeurs humaines
  • Sur 16 benchmarks, Qwen2-72B-Instruct dépasse largement Qwen1.5-72B-Chat et affiche des performances comparables à Llama-3-70B-Instruct
  • Les modèles Qwen2 de plus petite taille surpassent eux aussi des modèles SOTA de taille similaire ou supérieure, avec des résultats particulièrement marquants en code et sur les indicateurs liés au chinois

Points clés

  • En intégrant l’expérience et les données d’apprentissage en code de CodeQwen1.5, Qwen2-72B-Instruct améliore fortement ses performances dans divers langages de programmation
  • L’utilisation de jeux de données vastes et de haute qualité renforce les capacités de résolution de problèmes mathématiques de Qwen2-72B-Instruct
  • Qwen2-72B-Instruct peut traiter parfaitement des tâches d’extraction d’informations sur une longueur de 128K
  • Une solution d’agent efficace pour le traitement de documents de 1 million de tokens a également été publiée en open source
  • Dans l’évaluation du taux de réponses nuisibles sur 4 types de requêtes multilingues dangereuses, Qwen2-72B-Instruct montre un niveau de sécurité comparable à GPT-4 et nettement supérieur à Mistral-8x22B

Utilisations de Qwen2

  • Tous les modèles sont publiés sur Hugging Face et ModelScope et peuvent être utilisés librement
  • Qwen2-72B et les modèles affinés par instruction adoptent la Qianwen License, tandis que les autres modèles utilisent la licence Apache 2.0
  • Pour utiliser Qwen2 avec divers frameworks tiers, consulter la documentation de chaque framework ainsi que la documentation officielle

Feuille de route de Qwen2

  • L’équipe prévoit d’entraîner des modèles Qwen2 plus grands afin d’explorer le scaling des modèles en parallèle du scaling des données
  • Il est également prévu d’étendre Qwen2 en un modèle de langage multimodal capable de comprendre des informations visuelles et audio
  • De nouveaux modèles continueront d’être publiés en open source afin d’accélérer le développement de l’IA open source