Qwen2.5-1M - Déployer soi-même Qwen avec une prise en charge jusqu’à 1 million de tokens

(qwenlm.github.io)

4 points par GN⁺ 2025-01-29 | 3 commentaires | Partager sur WhatsApp

Qwen2.5-1M est un modèle open source haute performance prenant en charge une longueur de contexte allant jusqu’à 1M de tokens, et améliore Qwen2.5-Turbo, dévoilé il y a deux mois
Deux checkpoints sont publiés : Qwen2.5-7B-Instruct-1M et Qwen2.5-14B-Instruct-1M
- Première prise en charge d’un contexte de 1M de tokens pour un modèle Qwen
Framework d’inférence publié : fourniture d’un framework d’inférence optimisé basé sur vLLM. Avec l’intégration de la technique de sparse attention, les entrées de 1M de tokens sont traitées 3 à 7 fois plus vite
Rapport technique publié : partage d’un rapport technique détaillé sur la conception du framework d’entraînement et d’inférence, ainsi que sur les résultats expérimentaux

Performances du modèle

Tâches à long contexte

Évaluation Passkey Retrieval : extraction précise d’informations dans des documents de 1M de tokens. Le modèle Qwen2.5-7B présente quelques erreurs, tandis que Qwen2.5-14B conserve une grande précision
Évaluation de tâches complexes :
- Sur RULER, LV-Eval, LongbenchChat, etc., les modèles Qwen2.5-1M affichent de meilleures performances que les modèles 128K
- En particulier, Qwen2.5-14B montre globalement de meilleures performances, même comparé à GPT-4o-mini

Tâches à contexte court

Sur les tâches à contexte court également, les modèles Qwen2.5-1M conservent les mêmes performances que la version 128K
Ils affichent des performances similaires à GPT-4o-mini sur les tâches à contexte court, tout en prenant en charge un contexte jusqu’à 8 fois plus long

Technologies clés

Entraînement au long contexte

Extension progressive de la longueur de contexte de 4K à 256K
Ajustement basé sur RoPE, entraînement par étapes et application d’apprentissage par renforcement
La technique Dual Chunk Attention (DCA) permet l’extension à un contexte de 1M de tokens
DCA conserve une grande précision sur les longs contextes, même sans entraînement supplémentaire

Sparse attention

Introduction de la sparse attention basée sur MInference
Chunked Prefill intégré : réduction de 96,7 % de l’utilisation mémoire
Length Extrapolation intégrée : combinée à DCA pour améliorer la précision et l’efficacité de l’inférence
Sparsity Refinement on Long Sequences : adoption d’une configuration de sparsification optimisée pour minimiser la perte de performance sur les longs contextes
Résultat : une vitesse d’inférence multipliée par 3,2 à 6,7 sur une longueur de 1M de tokens

Déployer Qwen2.5-1M en local

Configuration requise

CUDA 12.1/12.3, Python 3.9~3.12
Exigences VRAM :
- Qwen2.5-7B : 120GB ou plus
- Qwen2.5-14B : 320GB ou plus

Installation et exécution

Cloner puis installer le dépôt vLLM
Démarrer le service API compatible OpenAI
Interaction avec le modèle possible via Curl ou Python

Orientation à venir

Recherche en cours sur des méthodes d’entraînement, des architectures de modèle et des méthodes d’inférence plus efficaces
Développement visant d’excellentes performances à la fois sur les contextes courts et longs
Projet d’élargir les usages pratiques des modèles à long contexte

3 commentaires

yangeok 2025-01-30

Est-ce que ça tournera bien en coréen en local ?

xguru 2025-01-29

2023-08-03 Alibaba présente QWEN, son modèle d’IA open source
2024-04-25 Qwen1.5-110B : le premier modèle 100B+ de la série de LLM open source Qwen1.5 d’Alibaba
2024-06-07 Alibaba présente le modèle Qwen 2
2024-09-19 Qwen2.5 - présentation de plusieurs foundation models
2024-11-28 QwQ - le LLM de raisonnement d’Alibaba, similaire à ChatGPT o1
2024-12-24 Retour d’expérience sur l’utilisation de QvQ, le nouveau modèle de raisonnement visuel de Qwen

GN⁺ 2025-01-29

Commentaires sur Hacker News

Dans le codage avec l’IA, une très grande fenêtre de contexte n’est pas vraiment utile. Au-delà d’environ 25 à 30k tokens en entrée, le modèle commence à se perdre
- Ce problème apparaît avec gpt-4o, Sonnet, DeepSeek, etc.
- De nombreux utilisateurs signalent ce problème et ont créé des pages d’aide dédiées pour y remédier
- Un grand contexte peut être utile pour certaines tâches avec beaucoup de contexte « à faible valeur », mais il peut poser problème pour le codage
Ollama dispose du paramètre num_ctx pour contrôler la longueur de la fenêtre de contexte, avec une valeur par défaut de 2048
- Il existe une astuce pour l’exécuter avec MLX sur macOS
Discussion sur l’état de l’art (SOTA) du memory-centric computing
- Un nouveau paradigme pourrait être nécessaire pour réduire le coût mémoire de l’IA
- Il pourrait exister un moyen de relier la DRAM et les interconnexions optiques
- On se demande s’il existe quelque chose ayant des capacités similaires à celles des transformers sans dépendre de la séquence
Quelqu’un veut vérifier si le premier modèle exécutable localement avec une longueur de contexte supérieure à 128K est passé directement à 1M
Quelqu’un aimerait avoir des retours de personnes ayant exécuté avec succès de longs prompts sur Mac
Un modèle réservé à l’API avec une fenêtre de contexte de 1M a été lancé en novembre
Des rumeurs circulent sur la longueur de contexte native, mais il n’est pas certain qu’elle soit réellement de 1M
- Des modèles comme llama3 8b sont annoncés avec un contexte plus grand, mais en pratique ce n’est pas vraiment le cas
- Il est difficile de dépasser 8k avec 16gb de VRAM
Tout le monde cherche à agrandir la fenêtre de contexte, mais il faut aussi réfléchir à la sortie
- Quelqu’un veut générer des milliers de lignes de code et se demande s’il existe des conseils à ce sujet

Qwen2.5-1M - Déployer soi-même Qwen avec une prise en charge jusqu’à 1 million de tokens

Performances du modèle

Tâches à long contexte

Tâches à contexte court

Technologies clés

Entraînement au long contexte

Sparse attention

Déployer Qwen2.5-1M en local

Configuration requise

Installation et exécution

Orientation à venir

À lire aussi

3 commentaires

Commentaires sur Hacker News