9 points par GN⁺ 2025-02-22 | 2 commentaires | Partager sur WhatsApp
  • L’équipe IA de DeepSeek s’efforce de repousser les limites dans l’exploration de l’AGI
  • À partir de la semaine prochaine, elle prévoit de publier en open source 5 dépôts, afin de partager en toute transparence de petites avancées réalisées en tant que développeurs
  • Il s’agit des composants de base de ses services en ligne, avec un code documenté, déployé et testé en conditions réelles
  • Du nouveau code sera publié chaque jour afin de favoriser l’innovation portée par la communauté

Day 1: FlashMLA

  • Un noyau de décodage MLA efficace pour les GPU Hopper
  • Optimisé pour le serving de séquences à longueur variable
  • Éléments actuellement publiés
    • BF16
    • Paged kvcache avec taille de bloc 64
  • Benchmark : avec CUDA 12.6 sur H800 SXM5, jusqu’à 3000GB/s dans des configurations limitées par la mémoire, et 580 TFLOPS dans des configurations limitées par le calcul

Day 2: DeepEP

  • Une bibliothèque de communication haute performance pour Mixture-of-Experts (MoE) et l’Expert Parallelism (EP)
  • Fournit des noyaux All-to-All basés sur GPU pour traiter rapidement les opérations de dispatch et de combinaison MoE
  • Prend en charge les calculs en basse précision comme FP8
  • Applique l’algorithme de group-limited gating proposé dans l’article DeepSeek-V3 pour optimiser le forwarding sur bande passante de domaine asymétrique
    • Exemple : optimisation des transferts de données NVLink → RDMA
    • Offre un débit élevé adapté à l’entraînement et aux tâches de prefilling en inférence
  • Inclut des noyaux à faible latence dédiés à RDMA pour le décodage d’inférence sensible à la latence
  • Fournit une technique de recouvrement communication-calcul (sans occuper les ressources SM)

Day 3: DeepGEMM

  • Une bibliothèque permettant d’exécuter efficacement la multiplication de matrices FP8 (GEMM), avec prise en charge de la méthode de fine-grained scaling proposée dans DeepSeek-V3
  • Prend en charge à la fois le GEMM général et le GEMM groupé pour Mix-of-Experts (MoE)
  • Implémentée sur CUDA, elle compile les noyaux à l’exécution via un module Just-In-Time (JIT) léger, sans compilation séparée lors de l’installation
  • Actuellement compatible uniquement avec les Tensor Cores NVIDIA Hopper
  • Utilise une double accumulation (promotion) basée sur les cœurs CUDA pour compenser l’imprécision de l’accumulation sur les Tensor Cores FP8
  • Reprend certains concepts de CUTLASS et CuTe, mais adopte une conception simple réduisant la dépendance à des templates complexes, avec environ 300 lignes de code de noyau seulement
  • Convient bien pour apprendre les opérations matricielles FP8 sur Hopper et les techniques d’optimisation
  • Malgré sa conception légère, montre des performances comparables ou supérieures à celles de bibliothèques finement optimisées par des experts sur diverses tailles de matrices

Day 4: Stratégies de parallélisation optimisées : DualPipe, EPLB, Profile-Data

  • Stratégies et codes utilisés dans DeepSeek V3/R1
    • DualPipe : algorithme de parallélisation pipeline bidirectionnel pour le recouvrement calcul-communication
    • EPLB : équilibreur de charge Expert-Parallel
    • Profile-Data : profilage des données de l’infrastructure DeepSeek pour analyser le recouvrement calcul-communication

Day 5: Système de fichiers 3FS et framework de traitement de données Smallpond

  • Fire-Flyer File System (3FS) est un système de fichiers distribué haute performance conçu pour prendre en charge les charges de travail d’entraînement et d’inférence en IA
  • Il exploite des SSD récents et des réseaux RDMA pour fournir une couche de stockage partagée et simplifier le développement d’applications distribuées
  • Principales caractéristiques et avantages
    • Performance et facilité d’utilisation
      • Architecture désagrégée : combine des milliers de SSD et la bande passante réseau de centaines de nœuds de stockage, permettant d’accéder aux ressources de stockage indépendamment de la localité
      • Garantie de forte cohérence : maintient la cohérence via Chain Replication with Apportioned Queries (CRAQ), ce qui simplifie le code applicatif
      • Prise en charge de l’interface fichier : fournit un service de métadonnées sans état s’appuyant sur un magasin clé-valeur transactionnel basé sur FoundationDB. Comme il utilise une interface de fichier existante, il n’est pas nécessaire d’apprendre une nouvelle API de stockage
    • Prise en charge de diverses charges de travail
      • Préparation des données : organise la sortie des pipelines d’analyse des données dans une structure de répertoires hiérarchique et gère efficacement de gros volumes de sorties intermédiaires
      • Optimisation du data loader : permet l’accès aléatoire aux échantillons d’entraînement depuis plusieurs nœuds de calcul, sans préchargement ni mélange préalable du dataset
      • Sauvegarde de checkpoints : prend en charge l’enregistrement parallèle rapide de checkpoints pour l’entraînement à grande échelle
      • Optimisation de l’inférence basée sur KVCache : plus économique que le cache basé sur DRAM, tout en offrant un débit élevé et une grande capacité de stockage
  • SmallPond - Framework léger de traitement de données construit sur DuckDB et 3FS
    • Se distingue par le traitement de données haute performance, la montée en charge à grande échelle et la simplicité d’exploitation
      • Traitement de données haute performance : utilise DuckDB pour un traitement rapide des données
      • Prise en charge de datasets massifs : peut traiter des données à l’échelle du pétaoctet (PB)
      • Simplicité opérationnelle : utilisation aisée sans service persistant de longue durée

Day 6: Publication de l’architecture du système d’inférence V3/R1 et de ses coûts/revenus d’exploitation

  • Principes de conception du système : l’objectif d’optimisation du système d’inférence DeepSeek-V3/R1 est un débit plus élevé et une latence plus faible
    • Pour cela, l’optimisation repose sur le cross-node Expert Parallelism (EP)
  • Coûts d’exploitation de DeepSeek
    • En moyenne 226 nœuds GPU (8 GPU H800 par nœud)
    • Coût d’exploitation quotidien : 87 072 $ (127 millions de KRW) - 2 $/heure par H800
    • Revenu quotidien théorique (sur la base de R1) : 562 027 $ (820 millions de KRW) → marge de 545 %
    • Toutefois, les revenus réels sont plus faibles (V3 est moins cher que R1 et seule une partie du service a été monétisée)

Article 2024 sur l’infrastructure IA (SC24)

Fire-Flyer AI-HPC : co-conception logiciel-matériel rentable pour le deep learning

  • Le progrès rapide du deep learning (DL) et des grands modèles de langage (LLM) entraîne une croissance exponentielle des besoins en puissance de calcul et en bande passante
  • Le coût de construction des infrastructures de calcul haute performance (HPC) augmente fortement en raison du prix élevé des puces de calcul rapides et des interconnexions haut débit
  • Pour y répondre, l’architecture Fire-Flyer AI-HPC a été introduite afin d’optimiser coût et performance grâce à une conception collaborative matériel-logiciel
    • Le système Fire-Flyer 2, utilisant 10 000 GPU PCIe A100, a été construit pour l’entraînement DL
    • Il offre des performances comparables à DGX-A100 tout en réduisant les coûts de moitié et la consommation d’énergie de 40 %
  • Éléments d’optimisation des performances
    • HFReduce : accélère la communication Allreduce pour améliorer la synchronisation des données entre GPU
    • Computation-Storage Integrated Network : applique diverses techniques de gestion de la congestion pour éviter les goulots d’étranglement réseau
    • Pile logicielle : HaiScale, 3FS, HAI-Platform maximisent la scalabilité en faisant se chevaucher calcul et communication

2 commentaires

 
xguru 2025-02-23

DeepSeek poursuit vraiment une trajectoire très intéressante. J’ai hâte de voir ce qui sera rendu public.

 
GN⁺ 2025-02-22
Avis sur Hacker News
  • Je me demande si je suis le seul à attendre les sorties de DeepSeek sans pour autant les suranalyser. Ce fil donne l’impression d’être rempli d’interprétations personnelles

    • DeepSeek reste avant tout une entreprise. C’est une excellente sortie, mais les attentes et les motivations me semblent exagérées
    • L’expression « pure énergie de garage » est géniale
    • Ce que j’attends le plus, c’est leur pile d’inférence. La plupart des gens font tourner R1 sur un seul nœud H200, mais DeepSeek utilisait beaucoup moins de RAM par GPU pour l’inférence et déployait un MoE basé sur un cluster
    • Plus intéressant que les 12 jours de Noël d’OpenAI
  • Ils vont open sourcer 5 dépôts à partir de la semaine prochaine, à raison d’un par jour

    • On peut considérer cela comme l’annonce d’une annonce. Mieux vaut ne pas en débattre avant la publication effective des dépôts, puisqu’on n’a aucun détail sur ce qui sera open source
    • Ce sont les modestes briques de base d’un service en ligne. Elles sont documentées, déployées et testées en conditions réelles
  • Un profond respect pour l’innovation et la recherche de DeepSeek. Pour tout ce qu’ils ont rendu public

    • La formule « Chaque ligne partagée devient un élan collectif qui accélère le parcours. Les déverrouillages quotidiens commencent bientôt. Pas de tour d’ivoire, juste une pure énergie de garage et une innovation portée par la communauté » est excellente
  • En réalité, ils sont en train de totalement démanteler OpenAI. Probablement indépendamment de leur intention

    • Les LLM étaient un « blockchain » plus légitime que lorsque la plupart des magazines de CIO publiaient des essais du type « Quelle est votre stratégie blockchain ? »
    • La bulle IA va éclater, et elle aura largement éclaté d’ici fin 2026
  • Il est intéressant de voir où se situe le fossé défensif dans l’IA. Un bon modèle de base peut toujours être distillé tant qu’on a accès à l’API. Les system prompts peuvent fuiter, les astuces d’interface peuvent être copiées. Au final, le vrai fossé se trouve peut-être dans le hardware et l’intégration verticale

  • DeepSeek et OpenAI pourraient-ils échanger leurs noms ?

  • Open sourcer des outils d’infrastructure pourrait vraiment accélérer l’innovation dans l’IA. Avoir accès à des dépôts bien documentés facilite énormément l’expérimentation et la construction sur l’existant

    • Je me demande si ces dépôts se concentrent sur des domaines précis comme l’entraînement distribué ou le model serving
  • Je me demande comment les valorisations des entreprises de modèles fondamentaux, désormais solidement open sourcées par Facebook et DeepSeek, peuvent rester compétitives. Comme la Chine et Facebook en offrent l’essentiel gratuitement, construire ces modèles ne semble pas pouvoir créer des centaines de milliards de dollars de valeur