- Qwen2.5-1M est un modèle open source haute performance prenant en charge une longueur de contexte allant jusqu’à 1M de tokens, et améliore Qwen2.5-Turbo, dévoilé il y a deux mois
- Deux checkpoints sont publiés : Qwen2.5-7B-Instruct-1M et Qwen2.5-14B-Instruct-1M
- Première prise en charge d’un contexte de 1M de tokens pour un modèle Qwen
- Framework d’inférence publié : fourniture d’un framework d’inférence optimisé basé sur vLLM. Avec l’intégration de la technique de sparse attention, les entrées de 1M de tokens sont traitées 3 à 7 fois plus vite
- Rapport technique publié : partage d’un rapport technique détaillé sur la conception du framework d’entraînement et d’inférence, ainsi que sur les résultats expérimentaux
Performances du modèle
Tâches à long contexte
- Évaluation Passkey Retrieval : extraction précise d’informations dans des documents de 1M de tokens. Le modèle Qwen2.5-7B présente quelques erreurs, tandis que Qwen2.5-14B conserve une grande précision
- Évaluation de tâches complexes :
- Sur RULER, LV-Eval, LongbenchChat, etc., les modèles Qwen2.5-1M affichent de meilleures performances que les modèles 128K
- En particulier, Qwen2.5-14B montre globalement de meilleures performances, même comparé à GPT-4o-mini
Tâches à contexte court
- Sur les tâches à contexte court également, les modèles Qwen2.5-1M conservent les mêmes performances que la version 128K
- Ils affichent des performances similaires à GPT-4o-mini sur les tâches à contexte court, tout en prenant en charge un contexte jusqu’à 8 fois plus long
Technologies clés
Entraînement au long contexte
- Extension progressive de la longueur de contexte de 4K à 256K
- Ajustement basé sur RoPE, entraînement par étapes et application d’apprentissage par renforcement
- La technique Dual Chunk Attention (DCA) permet l’extension à un contexte de 1M de tokens
- DCA conserve une grande précision sur les longs contextes, même sans entraînement supplémentaire
Sparse attention
- Introduction de la sparse attention basée sur MInference
- Chunked Prefill intégré : réduction de 96,7 % de l’utilisation mémoire
- Length Extrapolation intégrée : combinée à DCA pour améliorer la précision et l’efficacité de l’inférence
- Sparsity Refinement on Long Sequences : adoption d’une configuration de sparsification optimisée pour minimiser la perte de performance sur les longs contextes
- Résultat : une vitesse d’inférence multipliée par 3,2 à 6,7 sur une longueur de 1M de tokens
Déployer Qwen2.5-1M en local
Configuration requise
- CUDA 12.1/12.3, Python 3.9~3.12
- Exigences VRAM :
- Qwen2.5-7B : 120GB ou plus
- Qwen2.5-14B : 320GB ou plus
Installation et exécution
- Cloner puis installer le dépôt vLLM
- Démarrer le service API compatible OpenAI
- Interaction avec le modèle possible via Curl ou Python
Orientation à venir
- Recherche en cours sur des méthodes d’entraînement, des architectures de modèle et des méthodes d’inférence plus efficaces
- Développement visant d’excellentes performances à la fois sur les contextes courts et longs
- Projet d’élargir les usages pratiques des modèles à long contexte
3 commentaires
Est-ce que ça tournera bien en coréen en local ?
2023-08-03 Alibaba présente QWEN, son modèle d’IA open source
2024-04-25 Qwen1.5-110B : le premier modèle 100B+ de la série de LLM open source Qwen1.5 d’Alibaba
2024-06-07 Alibaba présente le modèle Qwen 2
2024-09-19 Qwen2.5 - présentation de plusieurs foundation models
2024-11-28 QwQ - le LLM de raisonnement d’Alibaba, similaire à ChatGPT o1
2024-12-24 Retour d’expérience sur l’utilisation de QvQ, le nouveau modèle de raisonnement visuel de Qwen
Commentaires sur Hacker News
Dans le codage avec l’IA, une très grande fenêtre de contexte n’est pas vraiment utile. Au-delà d’environ 25 à 30k tokens en entrée, le modèle commence à se perdre
Ollama dispose du paramètre
num_ctxpour contrôler la longueur de la fenêtre de contexte, avec une valeur par défaut de 2048Discussion sur l’état de l’art (SOTA) du memory-centric computing
Quelqu’un veut vérifier si le premier modèle exécutable localement avec une longueur de contexte supérieure à 128K est passé directement à 1M
Quelqu’un aimerait avoir des retours de personnes ayant exécuté avec succès de longs prompts sur Mac
Un modèle réservé à l’API avec une fenêtre de contexte de 1M a été lancé en novembre
Des rumeurs circulent sur la longueur de contexte native, mais il n’est pas certain qu’elle soit réellement de 1M
Tout le monde cherche à agrandir la fenêtre de contexte, mais il faut aussi réfléchir à la sortie