- Meta a annoncé deux clusters de 24 576 GPU dans le cadre de ses investissements majeurs pour l’avenir de l’IA
- Partage de détails sur le matériel, le réseau, le stockage, la conception, les performances et le logiciel
- Cette conception de cluster est utilisée pour l’entraînement de Llama 3
- Meta reste engagée en faveur de l’open compute et de l’open source
- L’entreprise construit ces clusters sur la base de Grand Teton, OpenRack et PyTorch, et continue de promouvoir l’innovation ouverte à l’échelle du secteur
- Cette annonce constitue une étape de sa feuille de route d’infrastructure ambitieuse
- L’objectif est de continuer à étendre l’infrastructure, avec 350 000 GPU NVIDIA H100 dans le cadre d’un portefeuille offrant d’ici fin 2024 une puissance de calcul équivalente à près de 600 000 H100
Regard sur les grands clusters IA de Meta
- La vision à long terme de Meta est de créer une intelligence artificielle générale (AGI) construite de manière ouverte et responsable afin que tout le monde puisse en bénéficier
- Les progrès vers l’AGI donnent naissance à de nouveaux produits, à de nouvelles fonctionnalités IA dans les applications et à de nouveaux appareils informatiques centrés sur l’IA
- Meta dispose d’une longue histoire dans la construction d’infrastructures IA, et avait pour la première fois partagé en 2022 des détails sur le Research SuperCluster (RSC), doté de 16 000 GPU NVIDIA A100
Architecture interne
- Les nouveaux clusters IA sont construits à partir des succès et des enseignements tirés du RSC
- En mettant l’accent sur l’expérience et la productivité des chercheurs et des développeurs, ils prennent en charge des modèles plus grands et plus complexes grâce à l’efficacité d’un fabric réseau haute performance et à des choix clés en matière de stockage
Réseau
- Meta traite chaque jour des dizaines de milliers de milliards d’exécutions de modèles d’IA
- Fournir des services à grande échelle exige une infrastructure très évoluée et flexible
- Meta conçoit sur mesure son matériel, ses logiciels et son fabric réseau afin d’optimiser l’expérience des chercheurs en IA et de garantir un fonctionnement efficace des data centers
Calcul
- Les deux clusters sont construits à l’aide de Grand Teton, la plateforme matérielle ouverte pour GPU conçue en interne par Meta
- Grand Teton intègre alimentation, contrôle, calcul et interfaces de fabric dans un seul châssis, améliorant les performances globales, l’intégrité du signal et les performances thermiques
Stockage
- Dans l’entraînement IA, le stockage joue un rôle essentiel, mais c’est aussi l’un des aspects les moins souvent évoqués
- Une version de la solution de stockage distribué « Tectonic » de Meta a été optimisée pour les supports flash
- Via une API FUSE (Linux Filesystem in Userspace) développée en interne, elle répond aux besoins en données et en checkpointing des clusters IA
- Des milliers de GPU peuvent enregistrer et charger des checkpoints de manière synchronisée, tout en bénéficiant d’un stockage à l’échelle de l’exaoctet, flexible et à haut débit, pour l’alimentation en données
- En collaboration avec Hammerspace, Meta a co-développé un déploiement de système de fichiers réseau parallèle (NFS)
Performances
- Lors de la construction de grands clusters IA, un principe essentiel consiste à maximiser à la fois les performances et la facilité d’usage
- La meilleure façon de repousser les limites des systèmes IA tout en testant la capacité d’un design à monter en charge est simplement de construire le système, de l’optimiser et de le tester en conditions réelles
- Meta teste ainsi la scalabilité de ses conceptions en construisant les systèmes, en les optimisant et en les évaluant en pratique
- Meta continue aussi de faire évoluer PyTorch, le framework IA de base qui prend en charge les workloads IA, afin de le préparer à des entraînements sur des dizaines de milliers, voire des centaines de milliers de GPU
Engagement en faveur de l’innovation IA ouverte
- Meta maintient son engagement envers l’innovation ouverte dans les logiciels et le matériel liés à l’IA
- En tant que membre fondateur de l’OCP, l’entreprise continue de soutenir l’innovation matérielle ouverte et fournit à la communauté OCP des designs comme Grand Teton et Open Rack
- Meta est également le principal et plus important contributeur à PyTorch, le framework logiciel IA qui soutient une large part du secteur
- Le matériel et les logiciels open source sont considérés comme des outils essentiels pour aider à résoudre des problèmes à grande échelle
L’avenir de l’infrastructure IA de Meta
- Ces deux conceptions de clusters d’entraînement IA font partie d’une feuille de route plus vaste pour l’avenir de l’IA
- Meta prévoit de continuer à étendre son infrastructure, avec 350 000 NVIDIA H100 dans le cadre d’un portefeuille offrant d’ici fin 2024 une puissance de calcul équivalente à 600 000 H100
L’avis de GN⁺
- Les clusters de 24k GPU annoncés par Meta représentent une avancée importante pour la recherche et le développement en IA, en fournissant notamment les puissantes ressources de calcul nécessaires à l’entraînement de grands modèles d’IA
- À mesure que la complexité et la taille des modèles IA continuent d’augmenter, cette infrastructure pose les bases permettant aux chercheurs de développer des solutions IA encore plus innovantes
- L’engagement de Meta envers l’open source et l’open compute peut favoriser l’innovation dans l’ensemble du secteur et aider d’autres organisations à exploiter ces technologies pour développer leurs propres solutions IA
- Toutefois, ces clusters à très grande échelle exigent aussi de prendre en compte leur impact environnemental lié à une consommation énergétique massive, ce qui peut constituer un enjeu important en matière de durabilité
- Cette annonce de Meta offre un aperçu passionnant de l’avenir des technologies de l’IA et donne l’occasion de réfléchir plus en profondeur à l’impact des progrès de l’IA sur la société et l’industrie
1 commentaires
Avis sur Hacker News
Mention de float8 et augmentation des FLOPs
Comparaison entre l’ère dot-com et l’ère de l’IA
Relation entre puissance de calcul et temps d’ingénierie
Intérêt pour le travail d’optimisation de pipeline
Capacités d’ingénierie de Meta
Perspective historique sur l’ingénierie et l’infrastructure
Possibilité pour Meta de concurrencer sur les charges de travail IA
Coût des GPU H100
Attitude ouverte de Meta vis-à-vis de l’innovation en IA
Vision à long terme de Meta et AGI