6 points par GN⁺ 2024-10-18 | 1 commentaires | Partager sur WhatsApp

Meta dévoile ses derniers designs de matériel IA à l’OCP Global Summit 2024

  • Présentation de technologies innovantes, notamment une nouvelle plateforme IA, des designs de racks ouverts de pointe, une fabric réseau avancée et divers composants
  • En partageant ses designs, l’entreprise entend encourager la collaboration et accélérer l’innovation

Les avancées de Meta en modélisation IA et en infrastructure

  • Depuis plusieurs années, Meta optimise et améliore des fonctions comme le fil d’actualité et les systèmes publicitaires grâce à l’innovation en modélisation IA
  • À mesure que l’entreprise développe et déploie de nouveaux modèles d’IA plus avancés, elle se concentre aussi sur l’évolution de son infrastructure pour prendre en charge de nouvelles charges de travail IA
  • Par exemple, pour entraîner le modèle Llama 3.1 405B, Meta a fortement optimisé l’ensemble de la stack d’entraînement, ce qui lui a permis de l’exploiter sur plus de 16 000 GPU NVIDIA H100
  • En 2023, l’entreprise a rapidement fait passer ses clusters d’entraînement de 1K à 16K GPU, et elle entraîne désormais des modèles sur des clusters de 24K GPU
  • Le volume de calcul nécessaire à l’entraînement de l’IA devrait continuer à augmenter fortement

L’importance du réseau et de la bande passante pour construire des clusters IA

  • Au-delà des GPU, le réseau et la bande passante jouent un rôle crucial pour garantir les performances des clusters
  • Les systèmes de Meta sont composés de systèmes de calcul HPC et de réseaux de calcul à haute bande passante reliant GPU et accélérateurs spécialisés par domaine
  • À l’avenir, la bande passante d’injection par accélérateur devrait atteindre l’ordre du téraoctet par seconde, soit plus de 10 fois les capacités des réseaux actuels
  • Pour y répondre, il faut une fabric réseau haute performance, multi-niveaux et non bloquante, afin d’exploiter pleinement le potentiel des clusters IA

Assurer la scalabilité de l’IA grâce au matériel ouvert

  • Pour faire évoluer l’IA à ce rythme, des solutions de matériel ouvert sont nécessaires
  • Développer de nouvelles architectures, des fabrics réseau et des conceptions système fondées sur les principes de l’ouverture est l’approche la plus efficace et la plus impactante
  • En investissant dans le matériel ouvert, il devient possible de libérer pleinement le potentiel de l’IA et de soutenir l’innovation continue dans ce domaine

Présentation de l’architecture ouverte « Catalina » pour l’infrastructure IA

  • Meta a annoncé à la communauté OCP le lancement à venir de Catalina, un rack haute performance pour les charges de travail IA
  • Catalina repose sur une solution à l’échelle du rack basée sur la plateforme NVIDIA Blackwell, avec un fort accent sur la modularité et la flexibilité
  • Il est conçu pour prendre en charge les tout derniers superchips NVIDIA GB200 Grace Blackwell afin de répondre aux exigences croissantes de l’infrastructure IA moderne
  • Avec l’augmentation des besoins en énergie des GPU, les solutions de rack ouvertes doivent offrir des capacités d’alimentation plus élevées
  • Catalina introduit ainsi le rack haute puissance Orv3 (HPR), capable de supporter jusqu’à 140kW
  • La solution est entièrement refroidie par liquide et se compose de différents composants
  • Le design modulaire de Catalina permet de personnaliser les racks en fonction de charges de travail IA spécifiques

Prise en charge des accélérateurs AMD sur la plateforme Grand Teton

  • Grand Teton est la plateforme IA de nouvelle génération de Meta, conçue pour répondre aussi bien aux besoins des charges de travail limitées par la bande passante mémoire qu’à ceux des charges limitées par la puissance de calcul
  • La plateforme Grand Teton a désormais été étendue pour prendre en charge l’AMD Instinct MI300X, et Meta prévoit de faire don de cette nouvelle version à l’OCP
  • Comme la version précédente, Grand Teton se distingue par une architecture système monolithique unique, avec une intégration complète de l’alimentation, du contrôle, du calcul et des interfaces fabric
  • En plus de prendre en charge divers designs d’accélérateurs, dont l’AMD Instinct MI300x, elle offre une capacité de calcul plus importante, une mémoire étendue et une bande passante réseau accrue

La fabric planifiée désagrégée ouverte (DSF, Disaggregated Scheduled Fabric)

  • Pour continuer à améliorer les performances des clusters d’entraînement IA, le développement d’un backend réseau ouvert et neutre vis-à-vis des fournisseurs jouera un rôle essentiel
  • La désagrégation du réseau permet de collaborer avec des fournisseurs de l’ensemble du secteur pour concevoir des systèmes innovants, scalables, flexibles et efficaces
  • La nouvelle DSF de Meta pour ses clusters IA de nouvelle génération offre plusieurs avantages par rapport aux switches traditionnels
  • La DSF s’appuie sur le standard ouvert OCP-SAI et sur FBOSS, le système d’exploitation réseau développé par Meta
  • Elle prend en charge des interfaces RoCE ouvertes et standard, basées sur Ethernet, pour les endpoints et les accélérateurs à travers plusieurs GPU et NIC de fournisseurs comme NVIDIA, Broadcom et AMD
  • En plus de la DSF, Meta a développé et déployé un nouveau switch fabric 51T basé sur des ASIC Broadcom et Cisco, et partage aussi un nouveau module NIC appelé FBNIC, qui intègre le premier ASIC réseau conçu en interne par Meta

La coopération entre Meta et Microsoft pour faire avancer l’innovation ouverte

  • Meta et Microsoft entretiennent un partenariat de longue date au sein de l’OCP, initié en 2018 avec le développement de la Switch Abstraction Interface (SAI) pour les data centers
  • Les deux entreprises ont contribué à des initiatives majeures, comme le standard Open Accelerator Module (OAM) et la standardisation des SSD
  • Leur collaboration se concentre désormais sur un nouveau rack d’alimentation désagrégé, Mount Diablo
  • Mount Diablo est une solution de pointe dotée d’une unité 400VDC scalable qui améliore l’efficacité et la scalabilité, faisant progresser de manière significative l’infrastructure IA

L’avenir ouvert de l’infrastructure IA

  • Meta affirme son engagement en faveur de l’IA open source et estime que l’open source apportera les bénéfices et les opportunités de l’IA aux populations du monde entier
  • Sans collaboration, l’IA ne pourra pas réaliser tout son potentiel
  • Des frameworks logiciels ouverts sont nécessaires pour stimuler l’innovation dans les modèles, garantir la portabilité et améliorer la transparence du développement de l’IA
  • Il faut donner la priorité à des modèles ouverts et standardisés afin de tirer parti de l’expertise collective, de rendre l’IA plus accessible et de minimiser les biais des systèmes
  • Des systèmes matériels IA ouverts sont également nécessaires pour fournir l’infrastructure haute performance, rentable et adaptable indispensable aux progrès de l’IA
  • Meta encourage toute personne souhaitant contribuer aux futures avancées des systèmes matériels IA à rejoindre la communauté OCP
  • En relevant ensemble les défis d’infrastructure de l’IA, il sera possible de concrétiser la véritable promesse d’une IA ouverte pour tous

L’avis de GN⁺

  • Des technologies réseau ouvertes couvrant plusieurs fournisseurs de GPU et de NIC peuvent aider à dépasser la dépendance à un seul fournisseur et à améliorer la scalabilité et la flexibilité des clusters d’entraînement IA
  • La coopération entre Meta et Microsoft peut jouer un rôle majeur dans l’accélération de l’innovation autour d’une infrastructure IA ouverte. Fortes du partenariat qu’elles ont construit de longue date via l’OCP, les deux entreprises devraient intensifier le développement de nouveaux standards et solutions
  • Le soutien appuyé de Meta à l’IA open source est encourageant. L’open source est la voie qui permet de démocratiser le potentiel de l’IA et d’élargir ses opportunités à l’ensemble de la société
  • Dans la construction d’une infrastructure IA ouverte, il faudra également traiter les questions de transparence, d’explicabilité et de considérations éthiques. Construire la confiance de la société envers l’IA est tout aussi important que le progrès technologique
  • Pour que les écosystèmes matériel et logiciel de l’IA se développent ensemble, la coopération à l’échelle de l’industrie ainsi que la participation d’acteurs variés, dont le monde académique et les décideurs publics, seront indispensables. On peut espérer que l’OCP devienne la plateforme centrale pour cela

1 commentaires

 
GN⁺ 2024-10-18
Commentaires sur Hacker News
  • Certains estiment que la rivalité entre OpenAI et Meta AI ressemble à une guerre de plateformes du type macOS vs Windows ou iOS vs Android

    • Ils observent que Meta a tendance à ouvrir sa plateforme pour gagner des parts de marché
    • Ils s’interrogent sur le fait de savoir si Meta continuerait à garder la plateforme ouverte en cas de victoire
  • Zuckerberg et Facebook font l’objet de nombreuses critiques, mais investissent aussi massivement dans l’ingénierie et l’open source

  • Meta a utilisé plus de 1600 GPU NVIDIA H100 pour entraîner le modèle Llama 3.1 405B, ce qui représente un investissement massif

    • Il est mentionné que l’action de Meta a fortement progressé après la sortie de ses modèles open source
  • Certains pensent que les LLM open source de Meta seront très attractifs pour de nombreux utilisateurs

    • OpenAI et Anthropic pourraient être amenés à discuter des modèles ouverts
  • Certains se demandent si Meta, Microsoft et OpenAI pourraient collaborer sur une conception de puces ouvertes pour concurrencer NVIDIA

  • Il est évoqué que Meta pourrait construire des centres de données IA à proximité de sites de production d’énergie comme des centrales à fusion

    • En citant l’avis de Yann LeCun, cela permettrait de bénéficier d’une électricité durable et peu coûteuse
  • Certains se demandent si, après OpenAI, Meta cible désormais NVIDIA

  • Il est mentionné que la notion d’« open » est désormais devenue un mème