Construction de l’infrastructure GenAI de Meta

(engineering.fb.com)

4 points par GN⁺ 2024-03-13 | 1 commentaires | Partager sur WhatsApp

Meta a annoncé deux clusters de 24 576 GPU dans le cadre de ses investissements majeurs pour l’avenir de l’IA
- Partage de détails sur le matériel, le réseau, le stockage, la conception, les performances et le logiciel
- Cette conception de cluster est utilisée pour l’entraînement de Llama 3
Meta reste engagée en faveur de l’open compute et de l’open source
- L’entreprise construit ces clusters sur la base de Grand Teton, OpenRack et PyTorch, et continue de promouvoir l’innovation ouverte à l’échelle du secteur
Cette annonce constitue une étape de sa feuille de route d’infrastructure ambitieuse
- L’objectif est de continuer à étendre l’infrastructure, avec 350 000 GPU NVIDIA H100 dans le cadre d’un portefeuille offrant d’ici fin 2024 une puissance de calcul équivalente à près de 600 000 H100

Regard sur les grands clusters IA de Meta

La vision à long terme de Meta est de créer une intelligence artificielle générale (AGI) construite de manière ouverte et responsable afin que tout le monde puisse en bénéficier
Les progrès vers l’AGI donnent naissance à de nouveaux produits, à de nouvelles fonctionnalités IA dans les applications et à de nouveaux appareils informatiques centrés sur l’IA
Meta dispose d’une longue histoire dans la construction d’infrastructures IA, et avait pour la première fois partagé en 2022 des détails sur le Research SuperCluster (RSC), doté de 16 000 GPU NVIDIA A100

Architecture interne

Les nouveaux clusters IA sont construits à partir des succès et des enseignements tirés du RSC
En mettant l’accent sur l’expérience et la productivité des chercheurs et des développeurs, ils prennent en charge des modèles plus grands et plus complexes grâce à l’efficacité d’un fabric réseau haute performance et à des choix clés en matière de stockage

Réseau

Meta traite chaque jour des dizaines de milliers de milliards d’exécutions de modèles d’IA
Fournir des services à grande échelle exige une infrastructure très évoluée et flexible
Meta conçoit sur mesure son matériel, ses logiciels et son fabric réseau afin d’optimiser l’expérience des chercheurs en IA et de garantir un fonctionnement efficace des data centers

Calcul

Les deux clusters sont construits à l’aide de Grand Teton, la plateforme matérielle ouverte pour GPU conçue en interne par Meta
Grand Teton intègre alimentation, contrôle, calcul et interfaces de fabric dans un seul châssis, améliorant les performances globales, l’intégrité du signal et les performances thermiques

Stockage

Dans l’entraînement IA, le stockage joue un rôle essentiel, mais c’est aussi l’un des aspects les moins souvent évoqués
Une version de la solution de stockage distribué « Tectonic » de Meta a été optimisée pour les supports flash
- Via une API FUSE (Linux Filesystem in Userspace) développée en interne, elle répond aux besoins en données et en checkpointing des clusters IA
- Des milliers de GPU peuvent enregistrer et charger des checkpoints de manière synchronisée, tout en bénéficiant d’un stockage à l’échelle de l’exaoctet, flexible et à haut débit, pour l’alimentation en données
En collaboration avec Hammerspace, Meta a co-développé un déploiement de système de fichiers réseau parallèle (NFS)

Performances

Lors de la construction de grands clusters IA, un principe essentiel consiste à maximiser à la fois les performances et la facilité d’usage
La meilleure façon de repousser les limites des systèmes IA tout en testant la capacité d’un design à monter en charge est simplement de construire le système, de l’optimiser et de le tester en conditions réelles
Meta teste ainsi la scalabilité de ses conceptions en construisant les systèmes, en les optimisant et en les évaluant en pratique
Meta continue aussi de faire évoluer PyTorch, le framework IA de base qui prend en charge les workloads IA, afin de le préparer à des entraînements sur des dizaines de milliers, voire des centaines de milliers de GPU

Engagement en faveur de l’innovation IA ouverte

Meta maintient son engagement envers l’innovation ouverte dans les logiciels et le matériel liés à l’IA
En tant que membre fondateur de l’OCP, l’entreprise continue de soutenir l’innovation matérielle ouverte et fournit à la communauté OCP des designs comme Grand Teton et Open Rack
Meta est également le principal et plus important contributeur à PyTorch, le framework logiciel IA qui soutient une large part du secteur
Le matériel et les logiciels open source sont considérés comme des outils essentiels pour aider à résoudre des problèmes à grande échelle

L’avenir de l’infrastructure IA de Meta

Ces deux conceptions de clusters d’entraînement IA font partie d’une feuille de route plus vaste pour l’avenir de l’IA
Meta prévoit de continuer à étendre son infrastructure, avec 350 000 NVIDIA H100 dans le cadre d’un portefeuille offrant d’ici fin 2024 une puissance de calcul équivalente à 600 000 H100

L’avis de GN⁺

Les clusters de 24k GPU annoncés par Meta représentent une avancée importante pour la recherche et le développement en IA, en fournissant notamment les puissantes ressources de calcul nécessaires à l’entraînement de grands modèles d’IA
À mesure que la complexité et la taille des modèles IA continuent d’augmenter, cette infrastructure pose les bases permettant aux chercheurs de développer des solutions IA encore plus innovantes
L’engagement de Meta envers l’open source et l’open compute peut favoriser l’innovation dans l’ensemble du secteur et aider d’autres organisations à exploiter ces technologies pour développer leurs propres solutions IA
Toutefois, ces clusters à très grande échelle exigent aussi de prendre en compte leur impact environnemental lié à une consommation énergétique massive, ce qui peut constituer un enjeu important en matière de durabilité
Cette annonce de Meta offre un aperçu passionnant de l’avenir des technologies de l’IA et donne l’occasion de réfléchir plus en profondeur à l’impact des progrès de l’IA sur la société et l’industrie

1 commentaires

GN⁺ 2024-03-13

Avis sur Hacker News

Mention de float8 et augmentation des FLOPs
- float8 est mentionné, ce qui double les FLOPs.
- xformers prend désormais en charge la sparsité 2:4, ce qui peut à nouveau doubler les FLOPs.
- Llama3 pourrait utiliser float8 et la sparsité 2:4 pour le MLP, et ainsi exploiter jusqu’à 4 fois les FLOPs float16 du H100.
- PyTorch prend en charge fp8 à titre expérimental, mais exécuter l’attention en float8 reste complexe à cause des problèmes de précision.
- L’attention pourrait probablement être traitée en float16, les RoPE/layernorms en float16/float32, et tout le reste en float8.
Comparaison entre l’ère dot-com et l’ère de l’IA
- Une personne ayant connu l’ère dot-com se dit quelque peu découragée par l’ère de l’IA en raison des coûts d’investissement massifs nécessaires à l’entraînement des modèles.
- Au début de l’ère dot-com, n’importe qui pouvait lancer un site e-commerce avec des coûts d’infrastructure relativement faibles.
- Aujourd’hui, il semble que seules de très grandes entreprises comme Meta, Google, Microsoft et OpenAI puissent construire des modèles d’IA.
Relation entre puissance de calcul et temps d’ingénierie
- Intérêt pour la question de savoir si, si Facebook pouvait multiplier sa puissance de calcul par 10, il faudrait redessiner toute la stack, et ce qu’il en serait avec un facteur 100.
- Question sur le fait de savoir si chaque refonte correspond à un simple changement ou à un travail bien plus complexe.
- La compréhension technique interne des clusters étant assez superficielle, curiosité pour l’avis de personnes ayant une expérience concrète du sujet.
Intérêt pour le travail d’optimisation de pipeline
- Question sur la manière de commencer pour quelqu’un qui aimerait participer au travail d’optimisation de pipeline.
- Interrogation sur le fait de savoir s’il s’agit de scientifiques du machine learning ayant des connaissances en C/C++ et en infrastructure qui « descendent » vers les systèmes quand c’est nécessaire, ou de spécialistes CUDA/SIMD qui « remontent » vers les tâches de machine learning.
Capacités d’ingénierie de Meta
- Meta affiche de solides performances en ingénierie malgré les pressions négatives.
- Question sur la manière dont Meta prévoit de monétiser ces capacités d’ingénierie.
Perspective historique sur l’ingénierie et l’infrastructure
- Mention du papier DLRM ainsi que des premiers racks désagrégés et du SDN de Facebook.
- Dès 2018, l’entreprise utilisait déjà de grands réseaux neuronaux pour les systèmes de recommandation et le ranking, en plaçant SSD et DRAM à différents endroits du rack.
- Mention des modèles de prédiction de clic et étonnement face à la méthode d’entraînement HOGWILD avec Intel AVX-2.
- Cela souligne que Meta conserve toujours un niveau d’excellence de tout premier plan dans la conception d’infrastructure et de SKU.
Possibilité pour Meta de concurrencer sur les charges de travail IA
- Curiosité quant à la possibilité pour Meta de rivaliser avec AWS, MSFT et GOOG sur le terrain des workloads IA.
Coût des GPU H100
- Estimation de ce que Meta paie pour les GPU H100.
- Si Meta achetait 350 000 NVIDIA H100 à 10k $, le coût total serait de 3,5 Md$.
Attitude ouverte de Meta vis-à-vis de l’innovation en IA
- Constat que Meta adopte une attitude ouverte vis-à-vis de l’innovation en IA.
Vision à long terme de Meta et AGI
- La vision à long terme de Meta est de construire une intelligence artificielle générale (AGI).

Construction de l’infrastructure GenAI de Meta

Regard sur les grands clusters IA de Meta

Architecture interne

Réseau

Calcul

Stockage

Performances

Engagement en faveur de l’innovation IA ouverte

L’avenir de l’infrastructure IA de Meta

L’avis de GN⁺

À lire aussi

1 commentaires

Avis sur Hacker News