5 points par xguru 2025-02-24 | 2 commentaires | Partager sur WhatsApp
  • Noyau de décodage MLA efficace pour les GPU Hopper
  • Optimisé pour le service de séquences à longueur variable
  • Éléments actuellement publiés
    • BF16
    • Paged kvcache avec une taille de bloc de 64
  • Benchmark : en utilisant CUDA 12.6 sur H800 SXM5, atteint jusqu'à 3000GB/s dans une configuration limitée par la mémoire, et 580 TFLOPS dans une configuration limitée par le calcul
  • Inspiré par FlashAttention 2&3 et cutlass
  • Premier des 5 projets open source publiés via DeepSeek Open Infra

2 commentaires

 
GN⁺ 2025-02-25

Avis sur Hacker News

  • vLLM a commencé à prendre en charge MLA pour les modèles DeepSeek il y a 3 semaines. Cela offre un débit de génération 3 fois plus élevé et une capacité mémoire de tokens 10 fois supérieure
    • MHA reste toutefois plus rapide dans les environnements à faible QPS
    • Selon des preuves théoriques, à surcharge de cache KV identique, MLA offre de manière constante une expressivité supérieure à GQA
    • Il est possible de convertir des modèles préentraînés largement utilisés basés sur GQA (LLaMA, Qwen, Mixtral, etc.) en modèles basés sur MLA
    • Il est probable que MLA devienne la norme
  • Si DeepSeek R1 avait utilisé le MHA standard, il aurait fallu 1 749 KB par token pour stocker le cache KV
    • Quand une conversation atteint environ 46 000 tokens, le cache KV dépasse la capacité totale de stockage d’un seul H100
    • Avec MLA, chaque token consomme 125 KB. Cela reste possible jusqu’à dépasser environ 640 000 tokens (2 fois Ulysses)
  • Prise en charge de BF16, cache KV paginé (taille de bloc 64), et sur H800, 3000 GB/s limités par la mémoire et 580 TFLOPS limités par le calcul
    • Beaucoup de développeurs des FANG ont probablement gagné énormément de temps grâce à cela
    • Le regret, c’est que seul le passage avant est pris en charge. Le vrai secret se trouvait dans le passage arrière
    • Je me demandais comment ils avaient implémenté le planificateur dualpipe
  • MLA signifie probablement Multi-head latent attention
  • Je suis un peu perdu : n’y avait-il pas des sanctions sur les GPU Hopper pour les entreprises chinoises ? Est-ce qu’ils admettent avoir eu accès à des H100 malgré les sanctions américaines ?
  • J’espérais vraiment que l’IA permettrait de faire revenir les jeux Flash
  • Qu’est-ce qu’on peut faire avec ça ?
  • OpenAI est de retour