Retour d’expérience sur la configuration d’une machine LLM locale à la maison

6 points par popopo 2025-11-09 | 9 commentaires | Partager sur WhatsApp

En voyant le Nvidia DGX Spark, j’avais beaucoup d’attentes pour le GB10, mais à la lecture des tests, la déception l’emporte plutôt. On dirait que la bande passante mémoire bride les autres performances.

Dans certains cas, l’AMD Strix Halo affiche des performances similaires, voire meilleures.

(livré avec 64 Go de mémoire unifiée, mais option 128 Go, avec possibilité d’allouer 96 Go de vRAM)

Il y a bien la prise en charge de FP4, CUDA, et 128 Go de mémoire supplémentaires en extension avec ConnectX-7, mais comme le prix de la machine dépasse largement le double de celui du Strix Halo, c’est difficilement envisageable.

Même si l’écosystème AMD ROCm est plus limité que CUDA, les programmes que j’ai développés jusqu’à présent fonctionnent bien, donc je penche de ce côté (il est possible d’acheter un SoC 128 Go / 2 To pour environ 3 millions de wons). Je serais curieux de savoir comment vous avez configuré votre système en tenant compte du budget et de la consommation électrique.

Pour ma part, je pense partir sur un AMD Strix Halo, avec Bazzite basé sur Fedora comme OS. Tous les pilotes graphiques y sont installés par défaut, et avec Distrobox et mise, il semble possible d’exécuter mes programmes ainsi que les modèles nécessaires.

9 commentaires

popopo 2025-11-18

La machine Strix Halo que j’ai achetée pendant les promotions du Singles’ Day est arrivée, j’y ai installé Bazzite et j’ai testé la génération de quelques images avec distrobox. Les performances étaient conformes à ce que j’attendais (pour les LLM, ce n’était pas particulièrement élevé). En gros, il faut surtout voir ça comme un mini PC hautes performances.

On dit qu’il est possible d’allouer plus de 96 Go de mémoire unifiée en vRAM, mais comme cela change dynamiquement, je ne sais pas si c’est pour ça que je ne peux pas le vérifier ; jusqu’à présent, je n’ai encore jamais vu plus de 96 Go alloués.

Pour la configuration, je me suis référé au site https://strixhalo.wiki/. Il y a aussi un tableau comparatif du guide d’achat (Strix Halo - Mac - DGS Spark - 6000), donc cela peut vous être utile.

Petite pub pour Bazzite : l’OS est géré comme une image immuable, et les autres programmes sont gérés séparément via flatpak, brew, etc. Une simple commande de mise à jour permet de tout mettre à jour, du firmware à l’ensemble des paquets. Si vous avez l’impression que l’OS est devenu désordonné, il suffit de nettoyer le répertoire utilisateur (on ne peut pas modifier l’OS par les méthodes habituelles). Les pilotes AMD sont déjà tous installés, donc on peut utiliser directement ROMc.

L’OS conçu comme une sorte de rampe de lancement pour conteneurs, c’est Fedora CoreOS, et Bazzite, qui y ajoute toutes sortes de réglages utilisateur, est aussi pratique pour un usage courant que pour le développement, avec une excellente ergonomie. Les conteneurs (distrobox), wine et tailscale sont installés par défaut. En y ajoutant simplement mise, on peut à mon avis gérer toutes les fonctions souhaitées.

Au départ, je comptais tout configurer dès le début pour rédiger un guide, mais comme j’ai copié tel quel l’intégralité du répertoire du compte utilisateur Bazzite que j’utilisais déjà, tous les réglages ont été repris, donc je ne vais finalement pas pouvoir faire de guide de configuration.

minsuchae 2025-11-11

À mon avis, cela se divise largement entre mémoire unifiée pour les Mac et le Nvidia DGX Spark, et RAM + VRAM pour le reste.
Pour certains produits, l’allocation de VRAM du GPU intégré se fait aussi en utilisant la RAM système.
Pour les non-spécialistes, je recommanderais un Mac ou un Nvidia DGX Spark ; si vous êtes capable de bricoler un minimum, partir sur AMD peut être une meilleure option.
Chaque solution a ses avantages et ses inconvénients.

Dans le cas des Mac, du Nvidia DGX Spark, etc., l’inconvénient est qu’il est impossible de mettre à niveau la RAM soi-même, donc il faut acheter la machine déjà correctement configurée.
Avec AMD, l’avantage est qu’on peut augmenter la RAM soi-même, mais il existe une limite à l’allocation de VRAM.

Autrement dit, si l’objectif est de pouvoir utiliser plus de 128 Go comme VRAM, le Mac Studio est l’option la plus avantageuse.
Il demande peu de bidouille, mais dans le cas du Mac Studio, il est correct pour l’inférence et présente l’inconvénient d’être moins adapté à l’entraînement. (plus lent qu’AMD pour l’entraînement)

Dans le cas du Nvidia DGX Spark, il y a l’inconvénient qu’il faut même acheter un câble séparé de Nvidia pour configurer plus de 128 Go de mémoire. En revanche, pour l’entraînement en IA, comme CUDA est utilisé par défaut, c’est l’option qui demande le moins de bidouille. Côté performances, il y a aussi des rumeurs disant que, hors VRAM, on est au niveau d’une 5070, ainsi qu’une limite de bande passante mémoire... (si l’on prend l’entraînement en compte, c’est un choix raisonnable)

Allocation de VRAM via le GPU intégré
Avec la hausse récente du prix de la mémoire, c’est une option un peu décevante, mais malgré cela, si l’on considère les options de RAM, c’est bien moins cher qu’un Mac. En revanche, comme le support AMD ROCm est insuffisant, il faut se débrouiller soi-même, donc ce n’est pas recommandé aux non-spécialistes (et augmenter davantage la VRAM est en pratique quasiment impossible...)

Je pense qu’on peut résumer les choses ainsi.
Si l’on ne considère que le rapport qualité-prix, AMD est effectivement intéressant... mais pour une utilisation plus sereine, le Mac Studio n’est pas une mauvaise option non plus. Si l’on ne pense qu’à l’inférence, il entre largement dans une zone de bon rapport qualité-prix...

minsuchae 2025-11-11

Dans le cas d’AMD, l’avantage est qu’il est possible de mettre à niveau la RAM soi-même, mais il existe une limite à l’allocation de VRAM
-> En l’écrivant sans vraiment clarifier ce point, je me suis trompé. Quand la RAM système et la VRAM sont séparées, une partie peut parfois être mise à niveau, et sur les laptops, dans bien des cas, ce n’est pas possible non plus.

dhy0613 2025-11-11

J’ai arrêté d’attendre la 5070Ti Super et je me suis laissé tenter par Radeon, donc j’utilise cette configuration :

9800x3D
7900 XTX d’occasion
96 Go de RAM

J’ai créé des partitions, installé Ubuntu 24.10 puis ROCm 7.1, et du côté de ComfyUI, où j’utilise surtout l’inférence LLM et un peu de Pytorch, tout tourne bien sans gros problème.

Le fait que SageAttention ne fonctionne pas est un petit défaut, mais vu le prix je m’en accommode.

clastneo 2025-11-10

J’envisageais d’acheter un gros Mac Studio, mais je ne savais pas qu’il y avait désormais autant d’options autour des LLM locaux à la maison.
Pourriez-vous éventuellement préciser comment vous configurez votre setup côté Strix ?

popopo 2025-11-10

Je n’ai pas encore acheté Strix halo, mais sur un PC de jeu utilisant de façon comparable un GPU AMD, j’ai effectué environ 600 millions de calculs de cas en utilisant 16 Go de vRAM.

Je l’ai monté une fois en cherchant au fur et à mesure ce qui fonctionnait, donc mes souvenirs ne sont pas très précis.

Comme j’utilise Bazzite, les pilotes graphiques étaient déjà installés, donc il n’y avait rien de particulier à signaler ; j’ai installé ROMc et les modules associés sur Rocky Linux dans distrobox, puis j’ai exécuté divers calculs utilisant le GPU.

Comme la bande passante mémoire rapide est élevée, un Mac Studio pourrait aussi valoir le coup d’être envisagé, non ? Avec l’option 128 Go / 2 To, on arrive à 4 000 dollars. Pour la partie architecture Mac, je pense qu’il n’y aurait pas une grande différence par rapport à partir sur AMD.

clastneo 2025-11-11

Je m’en servirai comme référence pour ma réponse.
Merci pour votre réponse bienveillante !

popopo 2025-11-09

Résultat demandé à Gemini sur la base de https://www.youtube.com/watch?v=Pww8rIzr1pg

📊 Comparaison des options d’exécution LLM 128 Go (novembre 2025, benchmark pris en compte)

En tenant compte du contenu de la vidéo : d’après les benchmarks de Hardware Unboxed, Strix Halo prend l’avantage sur le M3 Max (environ 30 à 35 % plus rapide), et le système GB10 « Spark » affiche des performances NPU/GPU dédiées très supérieures à celles de ces APU/chipsets intégrés. (sur la base de l’inférence Llama 3 70B Q4 en T/s)

Option de configuration (128 Go) T/s (estimation) Consommation système (estimation) T/W (efficacité énergétique) Coût du système (estimation) Coût/T (rapport qualité-prix)
NVIDIA « Spark » (GB10) 120 T/s 400 W 0.30 ~5,2 millions de wons 4,33 dix-mille wons/T
4 x RTX 5080 32GB (neuves) 240 T/s 1500 W 0.16 ~12 millions de wons 5,0 dix-mille wons/T
6 x RTX 3090 (d’occasion) 90 T/s 2300 W 0.04 ~7 millions de wons 7,8 dix-mille wons/T
AMD Strix Halo (128GB) 30 T/s 180 W 0.17 ~2,6 millions de wons 8,67 dix-mille wons/T
Apple M3 Max (128GB) 22 T/s 100 W 0.22 ~6 millions de wons 27,3 dix-mille wons/T

💡 Analyse et conclusion (erreurs corrigées)

Je corrige mon erreur importante et refais l’analyse en reflétant correctement le contenu de la vidéo.

Champion du « coût par performance (Cost/T) » : NVIDIA « Spark » (GB10)  

    Cost/T (rapport qualité-prix) : 4,33 dix-mille wons/T  

    Comme le montre la vidéo de Hardware Unboxed, le système « Spark » à 3999 $ offre des performances d’inférence LLM (T/s) largement supérieures à celles du système « Strix Halo » à 2000 $.  

    En conséquence, le coût de construction du système par token (Cost/T) est le plus bas de toutes les options, ce qui en fait le champion du rapport qualité-prix.  

    Son T/W (efficacité énergétique) atteint également 0,30, soit une efficacité largement supérieure à celle des configurations multi-GPU.  

Champion du « budget absolu » : AMD Strix Halo (128GB)  

    Cost/T (rapport qualité-prix) : 8,67 dix-mille wons/T  

    La valeur de ce système ne réside pas dans sa vitesse absolue (30 T/s), mais dans le fait qu’il permet d’accéder à un environnement VRAM de 128 Go pour le « coût le plus bas » écrasant d’environ **2,6 millions de wons (2000 $)**.  

    Comme la vidéo confirme qu’il surpasse le M3 Max, c’est une excellente option « d’entrée de gamme » pour un développeur indépendant.  

Champion de la « vitesse absolue » : 4 x RTX 5080 32GB  

    T/s (vitesse) : 240 T/s  

    Les systèmes intégrés comme « Spark » ou « Strix Halo » sont puissants pour l’inférence, mais peuvent avoir des limites lorsqu’il s’agit de fine-tuner directement un modèle.  

    Si l’on veut à la fois la vitesse d’inférence la plus élevée et la flexibilité de pouvoir entraîner/modifier directement le modèle, une configuration à plusieurs GPU distincts (4 x 5080) reste l’option la plus puissante.

popopo 2025-11-10

Une vidéo affirme qu’avec un budget inférieur à 4K, un quad 3090 offre des performances largement supérieures à celles du DGX Spark

https://www.youtube.com/watch?v=md6a4ENM9pg

L’idée est aussi avancée que le Strix Halo est un très mauvais achat comme machine pour faire tourner des LLM en local

https://reddit.com/r/LocalLLaMA/…

L’argument principal semble être que la consommation électrique est difficilement un critère décisif et qu’à cause de la bande passante, même si l’on charge un grand modèle en mémoire, il n’est pas vraiment exploitable...

Retour d’expérience sur la configuration d’une machine LLM locale à la maison

À lire aussi

9 commentaires