DeepSeek publie FlashMLA en open source (1 sur 5)

xguru · 2025-02-24T15:14:21+09:00

Noyau de décodage MLA efficace pour les GPU Hopper Optimisé pour le service de séquences à longueur variable Éléments actuellement publiés BF16 Paged kvcache avec une taille de bloc de 64 Benchmark : en utilisant CUDA 12.6 sur H800 SXM5, atteint jusqu'à 3000GB/s dans une configuration limitée par la mémoire, et 580 TFLOPS dans une configuration limitée par le calcul Inspiré par FlashAttention 2&3 et cutlass Premier des 5 projets open source publiés via DeepSeek Open Infra

(github.com/deepseek-ai)

5 points par xguru 2025-02-24 | 2 commentaires | Partager sur WhatsApp

Noyau de décodage MLA efficace pour les GPU Hopper
Optimisé pour le service de séquences à longueur variable
Éléments actuellement publiés
- BF16
- Paged kvcache avec une taille de bloc de 64
Benchmark : en utilisant CUDA 12.6 sur H800 SXM5, atteint jusqu'à 3000GB/s dans une configuration limitée par la mémoire, et 580 TFLOPS dans une configuration limitée par le calcul
Inspiré par FlashAttention 2&3 et cutlass
Premier des 5 projets open source publiés via DeepSeek Open Infra

2 commentaires

GN⁺ 2025-02-25

Avis sur Hacker News

vLLM a commencé à prendre en charge MLA pour les modèles DeepSeek il y a 3 semaines. Cela offre un débit de génération 3 fois plus élevé et une capacité mémoire de tokens 10 fois supérieure
- MHA reste toutefois plus rapide dans les environnements à faible QPS
- Selon des preuves théoriques, à surcharge de cache KV identique, MLA offre de manière constante une expressivité supérieure à GQA
- Il est possible de convertir des modèles préentraînés largement utilisés basés sur GQA (LLaMA, Qwen, Mixtral, etc.) en modèles basés sur MLA
- Il est probable que MLA devienne la norme
Si DeepSeek R1 avait utilisé le MHA standard, il aurait fallu 1 749 KB par token pour stocker le cache KV
- Quand une conversation atteint environ 46 000 tokens, le cache KV dépasse la capacité totale de stockage d’un seul H100
- Avec MLA, chaque token consomme 125 KB. Cela reste possible jusqu’à dépasser environ 640 000 tokens (2 fois Ulysses)
Prise en charge de BF16, cache KV paginé (taille de bloc 64), et sur H800, 3000 GB/s limités par la mémoire et 580 TFLOPS limités par le calcul
- Beaucoup de développeurs des FANG ont probablement gagné énormément de temps grâce à cela
- Le regret, c’est que seul le passage avant est pris en charge. Le vrai secret se trouvait dans le passage arrière
- Je me demandais comment ils avaient implémenté le planificateur dualpipe
MLA signifie probablement Multi-head latent attention
Je suis un peu perdu : n’y avait-il pas des sanctions sur les GPU Hopper pour les entreprises chinoises ? Est-ce qu’ils admettent avoir eu accès à des H100 malgré les sanctions américaines ?
J’espérais vraiment que l’IA permettrait de faire revenir les jeux Flash
Qu’est-ce qu’on peut faire avec ça ?
OpenAI est de retour

xguru 2025-02-24

FlashAttention-2 : une Attention plus rapide grâce à une meilleure parallélisation et à une répartition des tâches optimisée
FlashAttention-3 : une Attention rapide et précise grâce à l’asynchrone et à la basse précision

DeepSeek publie FlashMLA en open source (1 sur 5)

À lire aussi

2 commentaires

Avis sur Hacker News