- Serveur LLM dédié alimenté par 8 cartes graphiques RTX 3090. Un total de 192 Go de VRAM
- Construit en pensant à l’exécution de Llama-3.1 405B de Meta
Contexte
- En mars, il était difficile de mener des expérimentations LLM avec 48 Go de VRAM
- J’ai estimé qu’il fallait davantage de VRAM et j’ai décidé de construire un nouveau système
- Plusieurs questions se sont posées, comme le choix du CPU/de la plateforme, l’importance de la vitesse mémoire et la nécessité des lignes PCIe
- Après de longues heures de recherche, j’ai retenu la plateforme suivante
- Carte mère Asrock Rack ROMED8-2T (7 slots PCIe 4.0x16, 128 lignes PCIe)
- CPU AMD Epyc Milan 7713 (2.00 GHz / boost à 3.675 GHz, 64 cœurs / 128 threads)
- 512 Go de mémoire DDR4-3200 3DS RDIMM
- 3 alimentations de 1600 watts
- 8x GPU RTX 3090 (4x NVLink, débit de transfert de 112 Go/s par paire)
Aperçu de la série de billets
- Les défis rencontrés lors de l’assemblage de ce système
- Percer des trous dans le châssis métallique et ajouter un disjoncteur 30 ampères 240 volts
- Tordre les broches du socket CPU (à ne pas reproduire chez soi)
- Les problèmes liés aux risers PCIe, ainsi que l’importance des adaptateurs pour périphériques SAS, des redrivers et des retimers
- La vitesse de NVLink, la bande passante des lignes PCIe, la vitesse de transfert de la VRAM, et le blocage par Nvidia de la bande passante PCIe native P2P au niveau logiciel
- Le benchmarking de moteurs d’inférence comme TensorRT-LLM, vLLM et Aphrodite Engine
- L’entraînement et le fine-tuning de ses propres LLM
Conclusion
- En voyant l’évolution de la technologie, cela rappelle l’excitation ressentie en 2004 lorsqu’on obtenait un HDD de 60 Go
- Dans 20 ans, on se souviendra peut-être de l’époque où l’on pensait que 192 Go de VRAM représentaient une grande capacité
- Avec ce projet, l’auteur veut contribuer à créer les technologies impressionnantes du futur
Le résumé de GN⁺
- Cet article décrit le processus de construction d’un serveur haute performance pour des modèles d’IA
- Il explique comment construire un serveur LLM à l’aide de GPU récents et d’un CPU haute performance
- Il exprime la rapidité des avancées technologiques et l’enthousiasme pour l’avenir
- Parmi les projets aux fonctionnalités similaires, on peut citer le système DGX de Nvidia ou les TPU de Google
2 commentaires
On ne peut qu’être jaloux..
Commentaires sur Hacker News
Premier commentaire : a mis en place son propre serveur pour protéger ses données personnelles. Ne regrette pas d’avoir dépensé de l’argent pour cette configuration, vu la baisse récente de la qualité des sorties des plateformes.
Deuxième commentaire : pense qu’on pourrait un jour se souvenir de l’époque où 192 Go de VRAM paraissaient énormes.
Troisième commentaire : projet utilisant 8 GPU pour transformer des moniteurs 4K en mini mur de pixels sans bordures.
Quatrième commentaire : se demande dans quelle mesure NVLink aide.
Cinquième commentaire : très impressionnant, mais coûteux si ce n’est pas utilisé de manière productive 24/7.
Sixième commentaire : s’interroge sur la comparaison de coût avec Tinybox.
Septième commentaire : possède une configuration similaire dans son sous-sol.
Huitième commentaire : se demande comment connecter 8 GPU alors que la carte mère n’a que 7 slots PCIe.
Neuvième commentaire : se demande comment brancher une 8e carte lorsqu’il n’y a que 7 slots PCIe 4.0 x16.
Dixième commentaire : a hâte de lire cette série.