- Fire-Flyer File System (3FS) est un système de fichiers distribué haute performance conçu pour traiter les charges de travail d’entraînement et d’inférence en IA
- Il fournit une couche de stockage partagée en exploitant les SSD récents et les réseaux RDMA, et simplifie le développement d’applications distribuées
Principales caractéristiques et avantages
- Performance et facilité d’utilisation
- Architecture désagrégée : permet d’accéder aux ressources de stockage indépendamment de la localité en combinant des milliers de SSD et la bande passante réseau de centaines de nœuds de stockage
- Garanties de cohérence solides : maintient la cohérence à l’aide de Chain Replication with Apportioned Queries (CRAQ), ce qui simplifie le code des applications
- Prise en charge de l’interface fichier : fournit un service de métadonnées sans état reposant sur un magasin transactionnel clé-valeur basé sur FoundationDB. Comme l’interface de fichier existante est utilisée, il n’est pas nécessaire d’apprendre une nouvelle API de stockage
- Prise en charge de charges de travail variées
- Préparation des données : organise la sortie des pipelines d’analyse de données dans une structure de répertoires hiérarchique et gère efficacement de gros volumes de sorties intermédiaires
- Optimisation du data loader : permet un accès aléatoire aux échantillons d’entraînement depuis plusieurs nœuds de calcul sans préchargement ni mélange préalable du dataset
- Sauvegarde des checkpoints : prend en charge l’enregistrement parallèle rapide de checkpoints pour l’entraînement à grande échelle
- Optimisation de l’inférence basée sur KVCache : plus rentable que le caching basé sur DRAM, avec un débit élevé et une grande capacité de stockage
Tests de performance
- Test de débit maximal
- 180 nœuds de stockage (chacun équipé de 2×200Gbps InfiniBand NIC et de 16 SSD NVMe de 14TiB)
- Plus de 500 nœuds clients (chacun équipé de 1×200Gbps InfiniBand NIC)
- Lors d’un test de charge en lecture exécuté en parallèle d’une tâche d’entraînement IA, un débit total de 6.6TiB/s a été enregistré
- Test de benchmark GraySort
- 25 nœuds de stockage (2 domaines NUMA par nœud, 2×400Gbps NIC)
- 50 nœuds de calcul (192 cœurs physiques, 2.2TiB de RAM, 1×200Gbps NIC)
- 110.5TiB de données (8,192 partitions) triées en 30 min 14 s, avec un débit moyen de 3.66TiB/min
- Test de performance de KVCache
- Réduction des calculs inutiles grâce au caching de vecteurs clé-valeur pendant l’inférence de grands modèles de langage (LLM)
- Débit de lecture en pic de 40GiB/s
- Inclut une analyse des performances des opérations de suppression (IOPS) pendant l’exécution du Garbage Collection (GC)
- Se distingue par le traitement de données haute performance, la scalabilité à grande échelle et la simplicité d’exploitation
- Traitement de données haute performance : traitement rapide des données grâce à DuckDB
- Prise en charge de grands datasets : traitement possible de données à l’échelle du pétaoctet (PB)
- Simplicité d’exploitation : utilisation facile sans service de longue durée d’exécution
Aucun commentaire pour le moment.