4 points par GN⁺ 2025-01-29 | 3 commentaires | Partager sur WhatsApp
  • Qwen2.5-1M est un modèle open source haute performance prenant en charge une longueur de contexte allant jusqu’à 1M de tokens, et améliore Qwen2.5-Turbo, dévoilé il y a deux mois
  • Deux checkpoints sont publiés : Qwen2.5-7B-Instruct-1M et Qwen2.5-14B-Instruct-1M
    • Première prise en charge d’un contexte de 1M de tokens pour un modèle Qwen
  • Framework d’inférence publié : fourniture d’un framework d’inférence optimisé basé sur vLLM. Avec l’intégration de la technique de sparse attention, les entrées de 1M de tokens sont traitées 3 à 7 fois plus vite
  • Rapport technique publié : partage d’un rapport technique détaillé sur la conception du framework d’entraînement et d’inférence, ainsi que sur les résultats expérimentaux

Performances du modèle

Tâches à long contexte

  • Évaluation Passkey Retrieval : extraction précise d’informations dans des documents de 1M de tokens. Le modèle Qwen2.5-7B présente quelques erreurs, tandis que Qwen2.5-14B conserve une grande précision
  • Évaluation de tâches complexes :
    • Sur RULER, LV-Eval, LongbenchChat, etc., les modèles Qwen2.5-1M affichent de meilleures performances que les modèles 128K
    • En particulier, Qwen2.5-14B montre globalement de meilleures performances, même comparé à GPT-4o-mini

Tâches à contexte court

  • Sur les tâches à contexte court également, les modèles Qwen2.5-1M conservent les mêmes performances que la version 128K
  • Ils affichent des performances similaires à GPT-4o-mini sur les tâches à contexte court, tout en prenant en charge un contexte jusqu’à 8 fois plus long

Technologies clés

Entraînement au long contexte

  • Extension progressive de la longueur de contexte de 4K à 256K
  • Ajustement basé sur RoPE, entraînement par étapes et application d’apprentissage par renforcement
  • La technique Dual Chunk Attention (DCA) permet l’extension à un contexte de 1M de tokens
  • DCA conserve une grande précision sur les longs contextes, même sans entraînement supplémentaire

Sparse attention

  • Introduction de la sparse attention basée sur MInference
  • Chunked Prefill intégré : réduction de 96,7 % de l’utilisation mémoire
  • Length Extrapolation intégrée : combinée à DCA pour améliorer la précision et l’efficacité de l’inférence
  • Sparsity Refinement on Long Sequences : adoption d’une configuration de sparsification optimisée pour minimiser la perte de performance sur les longs contextes
  • Résultat : une vitesse d’inférence multipliée par 3,2 à 6,7 sur une longueur de 1M de tokens

Déployer Qwen2.5-1M en local

Configuration requise

  • CUDA 12.1/12.3, Python 3.9~3.12
  • Exigences VRAM :
    • Qwen2.5-7B : 120GB ou plus
    • Qwen2.5-14B : 320GB ou plus

Installation et exécution

  1. Cloner puis installer le dépôt vLLM
  2. Démarrer le service API compatible OpenAI
  3. Interaction avec le modèle possible via Curl ou Python

Orientation à venir

  • Recherche en cours sur des méthodes d’entraînement, des architectures de modèle et des méthodes d’inférence plus efficaces
  • Développement visant d’excellentes performances à la fois sur les contextes courts et longs
  • Projet d’élargir les usages pratiques des modèles à long contexte

3 commentaires

 
yangeok 2025-01-30

Est-ce que ça tournera bien en coréen en local ?

 
GN⁺ 2025-01-29
Commentaires sur Hacker News
  • Dans le codage avec l’IA, une très grande fenêtre de contexte n’est pas vraiment utile. Au-delà d’environ 25 à 30k tokens en entrée, le modèle commence à se perdre

    • Ce problème apparaît avec gpt-4o, Sonnet, DeepSeek, etc.
    • De nombreux utilisateurs signalent ce problème et ont créé des pages d’aide dédiées pour y remédier
    • Un grand contexte peut être utile pour certaines tâches avec beaucoup de contexte « à faible valeur », mais il peut poser problème pour le codage
  • Ollama dispose du paramètre num_ctx pour contrôler la longueur de la fenêtre de contexte, avec une valeur par défaut de 2048

    • Il existe une astuce pour l’exécuter avec MLX sur macOS
  • Discussion sur l’état de l’art (SOTA) du memory-centric computing

    • Un nouveau paradigme pourrait être nécessaire pour réduire le coût mémoire de l’IA
    • Il pourrait exister un moyen de relier la DRAM et les interconnexions optiques
    • On se demande s’il existe quelque chose ayant des capacités similaires à celles des transformers sans dépendre de la séquence
  • Quelqu’un veut vérifier si le premier modèle exécutable localement avec une longueur de contexte supérieure à 128K est passé directement à 1M

  • Quelqu’un aimerait avoir des retours de personnes ayant exécuté avec succès de longs prompts sur Mac

  • Un modèle réservé à l’API avec une fenêtre de contexte de 1M a été lancé en novembre

  • Des rumeurs circulent sur la longueur de contexte native, mais il n’est pas certain qu’elle soit réellement de 1M

    • Des modèles comme llama3 8b sont annoncés avec un contexte plus grand, mais en pratique ce n’est pas vraiment le cas
    • Il est difficile de dépasser 8k avec 16gb de VRAM
  • Tout le monde cherche à agrandir la fenêtre de contexte, mais il faut aussi réfléchir à la sortie

    • Quelqu’un veut générer des milliers de lignes de code et se demande s’il existe des conseils à ce sujet