L’IA servie depuis le sous-sol – 192 Go + 8x RTX 3090

(ahmadosman.com)

3 points par GN⁺ 2024-09-09 | 1 commentaires | Partager sur WhatsApp

À mesure que l’ampleur des expérimentations LLM personnelles augmentait, un serveur IA dédié a été assemblé directement à la maison avec 8x RTX 3090 et un total de 192 Go de VRAM
Comme l’environnement existant avec 48 Go de VRAM ne suffisait plus pour suivre le rythme des expérimentations, l’installation a été étendue vers un nœud multi-GPU pensé jusqu’à l’exécution de Llama-3.1 405B de Meta
La configuration s’articule autour d’une Asrock Rack ROMED8-2T, d’un AMD Epyc Milan 7713, de 512 Go de DDR4-3200 RDIMM, de 3 alimentations de 1600 W, et de 8 RTX 3090 reliées par 4x NVLink
NVLink fournit un débit de 112 Go/s pour chaque paire de GPU, tandis que les goulots d’étranglement liés aux lignes PCIe, aux risers, aux moteurs d’inférence et au fine-tuning restent au cœur des articles suivants
Construire chez soi un grand serveur LLM est possible, mais les difficultés d’assemblage et le coût rendent les erreurs très pénalisantes, si bien que le choix et la validation du matériel déterminent largement la réussite du projet

Objectifs du serveur LLM au sous-sol

Le dernier side project, AI from The Basement, est un serveur LLM dédié équipé de 8x RTX 3090 et d’un total de 192 Go de VRAM
L’un des objectifs est d’exécuter Llama-3.1 405B de Meta
Jusqu’alors, 48 Go de VRAM étaient utilisés pour les expérimentations LLM, mais vers mars 2024 il est apparu que cette capacité ne permettait plus de suivre le rythme
Le choix du matériel a pris en compte en même temps le CPU et la plateforme, la vitesse mémoire, le nombre de lignes PCIe, une configuration GPU en 2^n, le parallélisme tensoriel et le choix du moteur d’inférence

Configuration matérielle et enjeux de l’assemblage

La plateforme finale repose sur une combinaison de carte mère de niveau serveur, CPU EPYC, grande quantité de mémoire, alimentations multiples et 8 GPU
- Carte mère Asrock Rack ROMED8-2T : 7x slots PCIe 4.0 x16, 128 lignes PCIe
- CPU AMD Epyc Milan 7713 : 2,00 GHz, boost à 3,675 GHz, 64 cœurs / 128 threads
- Mémoire 512 Go DDR4-3200 3DS RDIMM
- 3 alimentations de 1600 W
- GPU 8x RTX 3090 et 4x NVLink
NVLink fournit un débit de transfert de 112 Go/s entre chaque paire de GPU
Lors de l’assemblage réel, des problèmes physiques sont apparus, comme l’usinage des trous du châssis métallique, l’ajout d’un disjoncteur 30A 240V, ou encore des broches tordues sur le socket CPU
Le texte aborde aussi l’importance des SAS Device Adapter, des redrivers et des retimers pour les problèmes de risers PCIe et pour obtenir une connexion PCIe sans erreur
Les articles suivants traiteront de la vitesse de NVLink, de la bande passante des lignes PCIe, de la vitesse de transfert de la VRAM, ainsi que de la décision de Nvidia de bloquer au niveau logiciel la bande passante PCIe native P2P
Les benchmarks de moteurs d’inférence prenant en charge le parallélisme tensoriel, comme TensorRT-LLM, vLLM et Aphrodite Engine, ainsi que l’entraînement et le fine-tuning maison de LLM, feront aussi partie de la suite
En comparaison avec la joie ressentie en 2004 devant un disque dur de 60 Go, le fait qu’une seule machine dispose vingt ans plus tard de plus de trois fois cette capacité rien que dans ses cartes graphiques illustre l’évolution technologique
L’objectif du projet est de contribuer à fabriquer les choses enthousiasmantes qui apparaîtront à l’avenir, avec l’idée qu’un jour, même 192 Go de VRAM pourront sembler modestes rétrospectivement
Part II of this Blogpost Series est proposé comme article suivant

1 commentaires

brainer 2024-09-09

On ne peut qu’être jaloux..

L’IA servie depuis le sous-sol – 192 Go + 8x RTX 3090

Objectifs du serveur LLM au sous-sol

Configuration matérielle et enjeux de l’assemblage

À lire aussi

1 commentaires