DeepSeek publie DeepEP en open source (2 sur 5)

(github.com/deepseek-ai)

3 points par xguru 2025-02-25 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Bibliothèque de communication haute performance pour Mixture-of-Experts (MoE) et Expert Parallelism (EP)
Fournit un kernel All-to-All basé sur GPU pour accélérer les opérations de dispatch et de combinaison des MoE
Prend en charge les calculs en basse précision comme le FP8
Applique l’algorithme de group-limited gating proposé dans l’article DeepSeek-V3 afin d’optimiser le forwarding de bande passante inter-domaines asymétriques
- Exemple : optimisation des transferts de données NVLink → RDMA
- Offre un débit élevé adapté à l’entraînement et aux tâches de prefilling d’inférence
Inclut un kernel faible latence dédié à RDMA pour le décodage d’inférence sensible à la latence
Fournit une technique de recouvrement communication-calcul (sans occuper les ressources SM)

Performances

DeepEP a testé ses performances dans un environnement avec GPU H800 et réseau RDMA InfiniBand CX7 400 Gb/s
Sur la base de la configuration DeepSeek-V3/R1, avec 4096 tokens par batch, 7168 nœuds cachés, une structure top-4 groupes et top-8 experts, en utilisant un dispatch FP8 et une combinaison BF16
Les résultats montrent une bande passante de plus de 150 GB/s pour les communications intra-nœud (basées sur NVLink), et 40 à 47 GB/s pour les communications inter-nœuds (basées sur RDMA) selon le nombre d’experts
Quand le nombre d’experts augmente, la bande passante RDMA tend à progresser légèrement (par exemple : 43 GB/s avec 16 experts, 46 GB/s avec 64 experts)

Les mesures du kernel faible latence montrent une latence nettement réduite par rapport au kernel général
Dans un environnement traitant 128 tokens par batch, la latence augmente avec le nombre d’experts, tandis que la bande passante RDMA reste relativement stable
Par exemple, elle passe de 163 microsecondes (us) avec 8 experts à 194 microsecondes (us) avec 256 experts
Dans l’opération de combinaison (combine), la latence est plus élevée que pour le dispatch, et la bande passante RDMA diminue progressivement sous les 40 GB/s à mesure que le nombre d’experts augmente
En clair, le kernel faible latence est très rapide avec de petits groupes d’experts, mais quand leur nombre augmente, la latence s’allonge, ce qui impose de trouver un bon équilibre

Il est possible d’isoler le trafic en exploitant les Virtual Lanes (VL) d’InfiniBand
Méthode de séparation recommandée :
- tâches utilisant le kernel général
- tâches utilisant le kernel faible latence
- autres tâches
La configuration des VL peut se faire via la variable d’environnement NVSHMEM_IB_SL

Prend en charge le routage adaptatif des switches InfiniBand
Peut être activé avec le kernel faible latence, mais doit être désactivé avec le kernel général (risque de corruption des données s’il est activé)
Recommandations de configuration :
- en cas de forte charge réseau : activer le routage adaptatif
- en cas de faible charge réseau : conserver un routage statique

DeepEP fonctionne avec le contrôle de congestion désactivé
Il a été confirmé que, dans un environnement réel, la congestion réseau n’est pas sévère

Utilisation d’instructions PTX non officielles : ld.global.nc.L1::no_allocate.L2::256B est utilisé pour optimiser les performances
- Cela fonctionne correctement sur l’architecture Hopper, mais sur d’autres plateformes, il est possible de le désactiver avec DISABLE_AGGRESSIVE_PTX_INSTRS=1
Auto-tuning recommandé : pour obtenir les meilleures performances, il faut appliquer les réglages après des tests de performance spécifiques à chaque cluster