3 points par GN⁺ 2024-09-09 | 2 commentaires | Partager sur WhatsApp
  • Serveur LLM dédié alimenté par 8 cartes graphiques RTX 3090. Un total de 192 Go de VRAM
  • Construit en pensant à l’exécution de Llama-3.1 405B de Meta

Contexte

  • En mars, il était difficile de mener des expérimentations LLM avec 48 Go de VRAM
  • J’ai estimé qu’il fallait davantage de VRAM et j’ai décidé de construire un nouveau système
  • Plusieurs questions se sont posées, comme le choix du CPU/de la plateforme, l’importance de la vitesse mémoire et la nécessité des lignes PCIe
  • Après de longues heures de recherche, j’ai retenu la plateforme suivante
    • Carte mère Asrock Rack ROMED8-2T (7 slots PCIe 4.0x16, 128 lignes PCIe)
    • CPU AMD Epyc Milan 7713 (2.00 GHz / boost à 3.675 GHz, 64 cœurs / 128 threads)
    • 512 Go de mémoire DDR4-3200 3DS RDIMM
    • 3 alimentations de 1600 watts
    • 8x GPU RTX 3090 (4x NVLink, débit de transfert de 112 Go/s par paire)

Aperçu de la série de billets

  • Les défis rencontrés lors de l’assemblage de ce système
    • Percer des trous dans le châssis métallique et ajouter un disjoncteur 30 ampères 240 volts
    • Tordre les broches du socket CPU (à ne pas reproduire chez soi)
  • Les problèmes liés aux risers PCIe, ainsi que l’importance des adaptateurs pour périphériques SAS, des redrivers et des retimers
  • La vitesse de NVLink, la bande passante des lignes PCIe, la vitesse de transfert de la VRAM, et le blocage par Nvidia de la bande passante PCIe native P2P au niveau logiciel
  • Le benchmarking de moteurs d’inférence comme TensorRT-LLM, vLLM et Aphrodite Engine
  • L’entraînement et le fine-tuning de ses propres LLM

Conclusion

  • En voyant l’évolution de la technologie, cela rappelle l’excitation ressentie en 2004 lorsqu’on obtenait un HDD de 60 Go
  • Dans 20 ans, on se souviendra peut-être de l’époque où l’on pensait que 192 Go de VRAM représentaient une grande capacité
  • Avec ce projet, l’auteur veut contribuer à créer les technologies impressionnantes du futur

Le résumé de GN⁺

  • Cet article décrit le processus de construction d’un serveur haute performance pour des modèles d’IA
  • Il explique comment construire un serveur LLM à l’aide de GPU récents et d’un CPU haute performance
  • Il exprime la rapidité des avancées technologiques et l’enthousiasme pour l’avenir
  • Parmi les projets aux fonctionnalités similaires, on peut citer le système DGX de Nvidia ou les TPU de Google

2 commentaires

 
brainer 2024-09-09

On ne peut qu’être jaloux..

 
GN⁺ 2024-09-09
Commentaires sur Hacker News
  • Premier commentaire : a mis en place son propre serveur pour protéger ses données personnelles. Ne regrette pas d’avoir dépensé de l’argent pour cette configuration, vu la baisse récente de la qualité des sorties des plateformes.

    • Réalise des choses impressionnantes avec le parallélisme tensoriel et l’inférence par lots.
    • Affine des modèles avec des données personnelles et génère des données synthétiques.
    • Construit actuellement un modèle à partir de zéro comme projet d’apprentissage, et prévoit d’écrire un tutoriel une fois les problèmes résolus.
    • A lancé un blog et prévoit une série de billets sur son apprentissage et ses découvertes.
    • Est prêt à partager des sujets ou des idées à expérimenter.
  • Deuxième commentaire : pense qu’on pourrait un jour se souvenir de l’époque où 192 Go de VRAM paraissaient énormes.

    • Il est devenu difficile d’acheter des HDD de grande capacité pour NAS, et les prix ont beaucoup augmenté.
    • S’attend à voir la même chose se produire dans l’IA.
    • Les grands fournisseurs cloud ne s’intéressent pas au matériel domestique bon marché et cherchent à exploiter les données via leurs services cloud.
  • Troisième commentaire : projet utilisant 8 GPU pour transformer des moniteurs 4K en mini mur de pixels sans bordures.

    • Projet destiné à la composition vidéo locale et à des arrière-plans générés par IA.
    • Cite l’exemple de "The Mandalorian", avec des arrière-plans photoréalistes en temps réel.
  • Quatrième commentaire : se demande dans quelle mesure NVLink aide.

    • A monté un rig avec 2 cartes 3090 et se demande s’il est possible d’utiliser davantage de cartes avec EPYC.
    • Le coût total est d’environ 3 500 $, et cette configuration semble proche de 12 à 15 k$.
  • Cinquième commentaire : très impressionnant, mais coûteux si ce n’est pas utilisé de manière productive 24/7.

  • Sixième commentaire : s’interroge sur la comparaison de coût avec Tinybox.

    • 25 k$ avec 6 cartes 4090, 15 k$ avec 6 cartes 7900XTX.
    • C’est un package complet incluant l’alimentation, le CPU, le stockage, le refroidissement, l’assemblage et la livraison.
  • Septième commentaire : possède une configuration similaire dans son sous-sol.

    • Elle est composée de plusieurs nœuds et utilise au total 16 cartes 3090.
    • A dû faire installer un circuit 30A 240V.
  • Huitième commentaire : se demande comment connecter 8 GPU alors que la carte mère n’a que 7 slots PCIe.

    • Se demande si deux GPU partagent le même slot au prix d’une bande passante réduite.
  • Neuvième commentaire : se demande comment brancher une 8e carte lorsqu’il n’y a que 7 slots PCIe 4.0 x16.

  • Dixième commentaire : a hâte de lire cette série.

    • Souhaite trouver des graphiques/données sur le rapport coût-performance des modèles open source.
    • Veut trouver une valeur $/ELO (une mesure du coût de construction et d’exploitation de la machine par rapport aux performances moyennes du modèle).