6 points par GN⁺ 2024-06-13 | 1 commentaires | Partager sur WhatsApp
  • Meta a besoin d’une capacité de calcul massive pour entraîner des grands modèles de langage (LLM)
  • L’entraînement des modèles d’IA traditionnels impliquait un grand nombre de modèles, mais nécessitait relativement peu de GPU
  • Avec l’arrivée de l’IA générative (GenAI), le nombre de tâches a diminué, mais les tâches elles-mêmes sont devenues extrêmement volumineuses

Défis de l’entraînement de modèles à grande échelle

  • Fiabilité du matériel : des tests rigoureux et un contrôle qualité strict sont nécessaires pour minimiser les interruptions d’entraînement dues aux pannes matérielles.
  • Récupération rapide en cas de panne : lorsqu’une panne matérielle survient, il faut pouvoir rétablir rapidement le système. Cela nécessite de réduire la surcharge liée au réordonnancement et de relancer rapidement l’entraînement.
  • Préservation efficace de l’état d’entraînement : en cas de panne, il faut pouvoir sauvegarder et restaurer efficacement l’état de l’entraînement.
  • Connectivité optimale entre GPU : l’entraînement de grands modèles dépend fortement des transferts de données entre GPU. Cela exige une infrastructure réseau à haut débit et des protocoles de transfert de données efficaces.

Il est important d’améliorer toutes les couches de la pile d’infrastructure

Logiciels d’entraînement

  • Meta aide les chercheurs à passer rapidement de la recherche à la production en s’appuyant sur de l’open source comme PyTorch.
  • Développement de nouveaux algorithmes et de nouvelles techniques pour l’entraînement à grande échelle, ainsi qu’intégration de nouveaux outils logiciels et frameworks.

Ordonnancement

  • Utilisation d’algorithmes complexes pour optimiser les ressources, allouer les ressources selon les besoins des tâches et les ordonnancer dynamiquement.

Matériel

  • Un matériel haute performance est nécessaire pour prendre en charge l’entraînement de grands modèles.
  • Optimisation du matériel existant, et modification de la plateforme Grand Teton utilisant des GPU NVIDIA H100 afin d’augmenter le TDP des GPU à 700W et de passer à la HBM3.

Déploiement des data centers

  • Placement optimal des GPU et des systèmes dans les data centers afin d’optimiser les ressources (alimentation, refroidissement, réseau, etc.).
  • Installation d’un maximum de racks GPU pour atteindre la plus forte densité de calcul possible.

Fiabilité

  • Mise en place de plans de détection et de reprise pour minimiser les temps d’arrêt en cas de panne matérielle.
  • Modes de panne fréquents : GPU non détecté, UCE DRAM & SRAM, problèmes de câblage réseau matériel.

Réseau

  • Une infrastructure réseau à haut débit et des protocoles de transfert de données efficaces sont nécessaires pour l’entraînement de grands modèles.
  • Construction de deux clusters réseau, RoCE et InfiniBand, puis apprentissage à partir de l’expérience opérationnelle.

Stockage

  • Investissement dans des technologies de stockage à grande capacité et à haute vitesse pour stocker de grands volumes de données, et développement de nouvelles solutions de stockage adaptées à des tâches spécifiques.

Perspectives

  • L’objectif est de traiter davantage de données avec plusieurs centaines de milliers de GPU, tout en gérant des distances plus longues et des latences plus élevées.
  • Adoption prévue de nouvelles technologies matérielles et de nouvelles architectures GPU, avec une évolution continue de l’infrastructure.
  • Meta continuera d’explorer un paysage de l’IA en constante évolution et de repousser les limites du possible.

1 commentaires

 
GN⁺ 2024-06-13
Commentaires Hacker News
  • Problème de connexion GPU : il est fait mention d’un problème où les GPU ne sont pas reconnus sur le bus PCIe.
  • Infrastructure de refroidissement : il a fallu modifier la conception mécanique et thermique tout en conservant l’environnement de refroidissement par air existant.
  • Contraintes de temps : les contraintes de temps ont eu un impact sur la qualité globale du modèle.
  • Fonction de recherche de Meta : un avis estime qu’il vaudrait mieux que Meta améliore sa fonction de recherche plutôt que d’entraîner un nouveau LLM.
  • Méthode de collecte des données : certains se demandent comment Meta collecte et prépare les données, en particulier comment l’entreprise traite les PII (informations personnellement identifiables).
  • Question des coûts : il est mentionné que les LLM pourraient être peu réalistes, hors applications cloud, à cause des coûts.
  • Construction du cluster : la tentative de construire deux clusters de 24k afin d’acquérir de l’expérience opérationnelle est jugée impressionnante.
  • Planification des tâches : il manque des informations concrètes sur la manière de planifier les tâches sur un vaste ensemble de machines.
  • Monétisation : il n’est pas clair comment Meta compte monétiser l’usage des LLM à grande échelle.
  • Avantage de Google dans l’IA : un avis avance que Google dispose d’un avantage dans l’IA grâce à son silicium personnalisé.
  • Nom de domaine : il est jugé intéressant que le domaine de Meta soit toujours engineering.fb.com.