DeepSeek publie FlashMLA en open source (1 sur 5)
(github.com/deepseek-ai)- Noyau de décodage MLA efficace pour les GPU Hopper
- Optimisé pour le service de séquences à longueur variable
- Éléments actuellement publiés
- BF16
Paged kvcacheavec une taille de bloc de 64
- Benchmark : en utilisant CUDA 12.6 sur H800 SXM5, atteint jusqu'à 3000GB/s dans une configuration limitée par la mémoire, et 580 TFLOPS dans une configuration limitée par le calcul
- Inspiré par FlashAttention 2&3 et cutlass
- Premier des 5 projets open source publiés via DeepSeek Open Infra
2 commentaires
Avis sur Hacker News
FlashAttention-2 : une Attention plus rapide grâce à une meilleure parallélisation et à une répartition des tâches optimisée
FlashAttention-3 : une Attention rapide et précise grâce à l’asynchrone et à la basse précision