- L’équipe IA de DeepSeek s’efforce de repousser les limites dans l’exploration de l’AGI
- À partir de la semaine prochaine, elle prévoit de publier en open source 5 dépôts, afin de partager en toute transparence de petites avancées réalisées en tant que développeurs
- Il s’agit des composants de base de ses services en ligne, avec un code documenté, déployé et testé en conditions réelles
- Du nouveau code sera publié chaque jour afin de favoriser l’innovation portée par la communauté
- Un noyau de décodage MLA efficace pour les GPU Hopper
- Optimisé pour le serving de séquences à longueur variable
- Éléments actuellement publiés
- BF16
- Paged kvcache avec taille de bloc 64
- Benchmark : avec CUDA 12.6 sur H800 SXM5, jusqu’à 3000GB/s dans des configurations limitées par la mémoire, et 580 TFLOPS dans des configurations limitées par le calcul
- Une bibliothèque de communication haute performance pour Mixture-of-Experts (MoE) et l’Expert Parallelism (EP)
- Fournit des noyaux All-to-All basés sur GPU pour traiter rapidement les opérations de dispatch et de combinaison MoE
- Prend en charge les calculs en basse précision comme FP8
- Applique l’algorithme de group-limited gating proposé dans l’article DeepSeek-V3 pour optimiser le forwarding sur bande passante de domaine asymétrique
- Exemple : optimisation des transferts de données NVLink → RDMA
- Offre un débit élevé adapté à l’entraînement et aux tâches de prefilling en inférence
- Inclut des noyaux à faible latence dédiés à RDMA pour le décodage d’inférence sensible à la latence
- Fournit une technique de recouvrement communication-calcul (sans occuper les ressources SM)
- Une bibliothèque permettant d’exécuter efficacement la multiplication de matrices FP8 (GEMM), avec prise en charge de la méthode de fine-grained scaling proposée dans DeepSeek-V3
- Prend en charge à la fois le GEMM général et le GEMM groupé pour Mix-of-Experts (MoE)
- Implémentée sur CUDA, elle compile les noyaux à l’exécution via un module Just-In-Time (JIT) léger, sans compilation séparée lors de l’installation
- Actuellement compatible uniquement avec les Tensor Cores NVIDIA Hopper
- Utilise une double accumulation (promotion) basée sur les cœurs CUDA pour compenser l’imprécision de l’accumulation sur les Tensor Cores FP8
- Reprend certains concepts de CUTLASS et CuTe, mais adopte une conception simple réduisant la dépendance à des templates complexes, avec environ 300 lignes de code de noyau seulement
- Convient bien pour apprendre les opérations matricielles FP8 sur Hopper et les techniques d’optimisation
- Malgré sa conception légère, montre des performances comparables ou supérieures à celles de bibliothèques finement optimisées par des experts sur diverses tailles de matrices
- Stratégies et codes utilisés dans DeepSeek V3/R1
- DualPipe : algorithme de parallélisation pipeline bidirectionnel pour le recouvrement calcul-communication
- EPLB : équilibreur de charge Expert-Parallel
- Profile-Data : profilage des données de l’infrastructure DeepSeek pour analyser le recouvrement calcul-communication
- Fire-Flyer File System (3FS) est un système de fichiers distribué haute performance conçu pour prendre en charge les charges de travail d’entraînement et d’inférence en IA
- Il exploite des SSD récents et des réseaux RDMA pour fournir une couche de stockage partagée et simplifier le développement d’applications distribuées
- Principales caractéristiques et avantages
- Performance et facilité d’utilisation
- Architecture désagrégée : combine des milliers de SSD et la bande passante réseau de centaines de nœuds de stockage, permettant d’accéder aux ressources de stockage indépendamment de la localité
- Garantie de forte cohérence : maintient la cohérence via Chain Replication with Apportioned Queries (CRAQ), ce qui simplifie le code applicatif
- Prise en charge de l’interface fichier : fournit un service de métadonnées sans état s’appuyant sur un magasin clé-valeur transactionnel basé sur FoundationDB. Comme il utilise une interface de fichier existante, il n’est pas nécessaire d’apprendre une nouvelle API de stockage
- Prise en charge de diverses charges de travail
- Préparation des données : organise la sortie des pipelines d’analyse des données dans une structure de répertoires hiérarchique et gère efficacement de gros volumes de sorties intermédiaires
- Optimisation du data loader : permet l’accès aléatoire aux échantillons d’entraînement depuis plusieurs nœuds de calcul, sans préchargement ni mélange préalable du dataset
- Sauvegarde de checkpoints : prend en charge l’enregistrement parallèle rapide de checkpoints pour l’entraînement à grande échelle
- Optimisation de l’inférence basée sur KVCache : plus économique que le cache basé sur DRAM, tout en offrant un débit élevé et une grande capacité de stockage
- SmallPond - Framework léger de traitement de données construit sur DuckDB et 3FS
- Se distingue par le traitement de données haute performance, la montée en charge à grande échelle et la simplicité d’exploitation
- Traitement de données haute performance : utilise DuckDB pour un traitement rapide des données
- Prise en charge de datasets massifs : peut traiter des données à l’échelle du pétaoctet (PB)
- Simplicité opérationnelle : utilisation aisée sans service persistant de longue durée
- Principes de conception du système : l’objectif d’optimisation du système d’inférence DeepSeek-V3/R1 est un débit plus élevé et une latence plus faible
- Pour cela, l’optimisation repose sur le cross-node Expert Parallelism (EP)
- Coûts d’exploitation de DeepSeek
- En moyenne 226 nœuds GPU (8 GPU H800 par nœud)
- Coût d’exploitation quotidien : 87 072 $ (127 millions de KRW) - 2 $/heure par H800
- Revenu quotidien théorique (sur la base de R1) : 562 027 $ (820 millions de KRW) → marge de 545 %
- Toutefois, les revenus réels sont plus faibles (V3 est moins cher que R1 et seule une partie du service a été monétisée)
Article 2024 sur l’infrastructure IA (SC24)
Fire-Flyer AI-HPC : co-conception logiciel-matériel rentable pour le deep learning
- Le progrès rapide du deep learning (DL) et des grands modèles de langage (LLM) entraîne une croissance exponentielle des besoins en puissance de calcul et en bande passante
- Le coût de construction des infrastructures de calcul haute performance (HPC) augmente fortement en raison du prix élevé des puces de calcul rapides et des interconnexions haut débit
- Pour y répondre, l’architecture Fire-Flyer AI-HPC a été introduite afin d’optimiser coût et performance grâce à une conception collaborative matériel-logiciel
- Le système Fire-Flyer 2, utilisant 10 000 GPU PCIe A100, a été construit pour l’entraînement DL
- Il offre des performances comparables à DGX-A100 tout en réduisant les coûts de moitié et la consommation d’énergie de 40 %
- Éléments d’optimisation des performances
- HFReduce : accélère la communication Allreduce pour améliorer la synchronisation des données entre GPU
- Computation-Storage Integrated Network : applique diverses techniques de gestion de la congestion pour éviter les goulots d’étranglement réseau
- Pile logicielle : HaiScale, 3FS, HAI-Platform maximisent la scalabilité en faisant se chevaucher calcul et communication
2 commentaires
DeepSeek poursuit vraiment une trajectoire très intéressante. J’ai hâte de voir ce qui sera rendu public.
Avis sur Hacker News
Je me demande si je suis le seul à attendre les sorties de DeepSeek sans pour autant les suranalyser. Ce fil donne l’impression d’être rempli d’interprétations personnelles
Ils vont open sourcer 5 dépôts à partir de la semaine prochaine, à raison d’un par jour
Un profond respect pour l’innovation et la recherche de DeepSeek. Pour tout ce qu’ils ont rendu public
En réalité, ils sont en train de totalement démanteler OpenAI. Probablement indépendamment de leur intention
Il est intéressant de voir où se situe le fossé défensif dans l’IA. Un bon modèle de base peut toujours être distillé tant qu’on a accès à l’API. Les system prompts peuvent fuiter, les astuces d’interface peuvent être copiées. Au final, le vrai fossé se trouve peut-être dans le hardware et l’intégration verticale
DeepSeek et OpenAI pourraient-ils échanger leurs noms ?
Open sourcer des outils d’infrastructure pourrait vraiment accélérer l’innovation dans l’IA. Avoir accès à des dépôts bien documentés facilite énormément l’expérimentation et la construction sur l’existant
Je me demande comment les valorisations des entreprises de modèles fondamentaux, désormais solidement open sourcées par Facebook et DeepSeek, peuvent rester compétitives. Comme la Chine et Facebook en offrent l’essentiel gratuitement, construire ces modèles ne semble pas pouvoir créer des centaines de milliards de dollars de valeur