Comment exécuter GLM-5.2 en local
(unsloth.ai)- Le nouveau modèle ouvert GLM-5.2 de Z.ai se distingue surtout comme un cas d’usage de très grand modèle manipulable en local, avec 744B de paramètres, 40B de paramètres actifs et une fenêtre de contexte de 1M
- Unsloth propose une voie d’exécution locale via Dynamic GGUF, et la quantization recommandée en 2-bit
UD-IQ2_Mexige 239 Go de disque et un environnement avec au minimum environ 245 Go de RAM - Le Dynamic 1-bit affiche environ 76,2 % de top-1 accuracy avec une réduction de taille de 86 %, et le Dynamic 2-bit environ 82 % d’accuracy avec une réduction de 84 %, ce qui ne correspond pas à l’interprétation « les performances baissent dans la même proportion que la taille »
- Deux méthodes d’exécution sont proposées : Unsloth Studio et
llama.cpp. Studio permet sur MacOS, Windows et Linux de rechercher, télécharger et exécuter des modèles, avec prise en charge du RAM offloading et de la détection multiGPU - Pour utiliser réellement un long contexte, il faut réduire l’usage mémoire avec la quantization du cache KV dans
llama.cpp;q4_0permet un contexte environ 3,5 fois plus long, etq4_1environ 3,2 fois plus long
Vue d’ensemble du modèle GLM-5.2
- GLM-5.2 est le nouveau modèle ouvert de Z.ai, exécutable sur du matériel local via Unsloth Dynamic GGUF
- Les spécifications du modèle sont les suivantes
- Paramètres totaux : 744B
- Paramètres actifs : 40B
- Fenêtre de contexte maximale : 1,048,576
- Il est présenté comme offrant des performances SOTA sur le long-horizon coding, le raisonnement et les agentic tasks
- Selon Artificial Analysis et plusieurs benchmarks, il atteindrait un niveau comparable à Claude 4.8 Opus, GPT-5.5 et Gemini 3.1 Pro
- Unsloth indique avoir bénéficié d’un day-zero access de la part de Z.ai
- Les fichiers modèle GGUF pour GLM-5.2 peuvent être téléchargés sur Hugging Face via GLM-5.2-GGUF
Quantization recommandée et besoins mémoire
- Pour équilibrer accessibilité et précision, l’usage de la quantization dynamique 2-bit
UD-IQ2_Mest recommandé- Espace disque : 239 Go
- Tient directement dans un Mac à mémoire unifiée de 256 Go
- Avec MoE offloading, cela fonctionnerait aussi correctement avec 1x24GB GPU + 256GB RAM
- La quantization 1-bit tient dans 223 Go de RAM, tandis que la 8-bit demande 810 Go de RAM
- Dans le tableau des exigences matérielles pour l’inférence, la mémoire totale désigne RAM + VRAM ou bien la mémoire unifiée
- Valeurs totales affichées : 223 Go, 245 Go, 290–360 Go, 372–475 Go, 570 Go, 810 Go
- Pour obtenir les meilleures performances, la mémoire disponible entre VRAM et RAM système doit dépasser largement la taille du fichier modèle quantifié
Mode Thinking et paramètres d’échantillonnage
- GLM-5.2 propose 3 thinking modes
- non-thinking
- thinking High
- thinking Max
- Pour les tâches complexes, l’usage de Max Thinking est recommandé
- Dans Unsloth Studio, l’interface permet d’activer ou désactiver High/Max Thinking et le mode non-Thinking
- Les réglages recommandés pour la plupart des usages sont les suivants
temperature = 1.0top_p = 0.95- Dans les autres modes,
top_p = 1.0
- GLM-5.2 utilise le raisonnement par défaut, et
reasoning_effortpeut être réglé sur"high","max"ou désactivé - Exemple de désactivation du thinking
- Shell classique :
--chat-template-kwargs '{"enable_thinking":false}' - Windows PowerShell :
--chat-template-kwargs "{\"enable_thinking\":false}"
- Shell classique :
- Dans
llama.cpp, on peut aussi utiliser--reasoning onou--reasoning off - Exemples de réglage du reasoning effort
--chat-template-kwargs '{"reasoning_effort":"max"}'--chat-template-kwargs '{"reasoning_effort":"high"}'--chat-template-kwargs '{"enable_thinking":false}'
Précision de Dynamic GGUF et interprétation du KLD
- Unsloth utilise le benchmark KLD (KL Divergence) pour évaluer la précision de la quantization GLM-5.2-GGUF
- Dynamic 4-bit
UD-Q4_K_XLet Dynamic 5-bitUD-Q5_K_XLsont présentés comme généralement lossless - Même les quantizations plus petites fonctionnent via une allocation dynamique de précision, où les couches importantes restent en précision plus élevée et les moins importantes en peu de bits
- Les chiffres en pure top-1% accuracy sont les suivants
- Dynamic 1-bit : environ 76,2 % accuracy, réduction de taille de 86 %
- Dynamic 2-bit : environ 82 % accuracy, réduction de taille de 84 %
- Comparaison d’accuracy :
- Dire qu’un modèle est 86 % plus petit ne signifie pas qu’il est 86 % moins bon ; pour le Dynamic 1-bit, l’interprétation donnée est une précision d’environ 24 % inférieure au modèle complet de 1,5 To
- « 76 % accuracy » ne signifie pas que pour une question comme « The capital of France is », le modèle choisirait Paris à 76 % et Sydney à 24 %
- Dans cet exemple, Paris serait toujours à 100 % et Sydney à 0 %
- Le chiffre de 76 % inclut aussi les changements de distribution sur l’ensemble du corpus, y compris les filler words et stop words
- Pour un prompt comme « Create a novel », où plusieurs débuts peuvent être corrects, la distribution de tokens du modèle de base et du modèle quantifié peut diverger
- Le modèle de base peut choisir
[I]à 100 %, tandis que le modèle quantifié répartit par exemple[I]76 % et[The]24 % - Cela ne signifie pas qu’il produira du charabia ou une sortie incorrecte avec 24 % de probabilité
- Le modèle de base peut choisir
- Le KLD correspond à la distance entre les probabilités de la baseline BF16 ou Q8_0 et celles de la version quantifiée
- L’objectif de la quantization est de minimiser la moyenne de la divergence KL entre
f(q(W))etf(W) fdésigne le forward du language model,ql’opération de quantization etWles paramètres ou weights du modèle- Un KLD de 0 signifie que le modèle a été parfaitement reconstruit
- L’objectif de la quantization est de minimiser la moyenne de la divergence KL entre
- Exécuter le KLD sur l’intégralité d’un corpus d’entraînement de 15T tokens serait trop coûteux ; Unsloth optimise donc avec une moyenne de KLD et un petit representative subset sampling
- Un KLD à 99,9 % est aussi jugé généralement bon, et à partir du 4-bit le gain supplémentaire devient plus important, ce qui ferait probablement du Dynamic 4-bit le meilleur choix pour des massive out-of-distribution tasks
Exécution avec Unsloth Studio
- Unsloth Studio est une web UI open source pour l’IA locale et prend en charge l’exécution de GLM-5.2
- Principales fonctionnalités
- Exécution de modèles locaux sur MacOS, Windows et Linux
- Recherche, téléchargement et exécution de modèles GGUF et safetensor
- Détection automatique du RAM offloading et des configurations multiGPU
- Inférence rapide CPU + GPU via
llama.cpp
- Commandes d’installation
- MacOS, Linux, WSL :
curl -fsSL https://unsloth.ai/install.sh | sh - Windows PowerShell :
irm https://unsloth.ai/install.ps1 | iex
- MacOS, Linux, WSL :
- Commande de lancement
unsloth studio -H 0.0.0.0 -p 8888- Une fois lancé, il suffit d’ouvrir
http://127.0.0.1:8888dans le navigateur, ou l’URL spécifique à l’utilisateur
- Une méthode d’exécution sécurisée de Studio en HTTPS est aussi proposée
- Sous Windows, Mac et Linux :
unsloth studio --secure - Avec un tunnel Cloudflare gratuit
- Sous Windows, Mac et Linux :
- Lors du premier lancement, il faut créer un password pour sécuriser le compte, puis se reconnecter ensuite
- Dans l’onglet Studio Chat, il faut chercher
GLM-5.2dans la barre de recherche, puis télécharger le modèle et la quantization souhaités - Avant de lancer le modèle, il faut vérifier qu’il y a suffisamment de compute disponible
- Dans Studio, les paramètres d’inférence devraient être configurés automatiquement, mais l’utilisateur peut modifier manuellement la longueur de contexte, le chat template et d’autres réglages
- Plus d’informations sont disponibles dans le guide d’inférence Unsloth Studio
Exécution avec llama.cpp
- Le tutoriel llama.cpp traite de l’exécution de la quantization
UD-IQ2_Met nécessite au minimum 245 Go de RAM - Pour une inférence locale rapide, il s’appuie sur llama.cpp
- Sans GPU, ou pour de l’inférence CPU uniquement, il faut remplacer
-DGGML_CUDA=ONpar-DGGML_CUDA=OFF - Sur Apple Mac / Metal, il faut aussi utiliser
-DGGML_CUDA=OFF, le support Metal étant activé par défaut - La procédure de build suit ce flux
apt-get updateapt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -ygit clone https://github.com/ggml-org/llama.cppcmake ... -DGGML_CUDA=ONcmake --build ... --target llama-cli llama-mtmd-cli llama-server llama-gguf-splitcp llama.cpp/build/bin/llama-* llama.cpp
llama.cpppeut aussi charger et télécharger directement des modèles, à la manière deollama run- Parmi les exemples de type de quantization,
UD-IQ2_Mest retenu, etexport LLAMA_CACHE="unsloth/GLM-5.2-GGUF"permet de forcer l’emplacement de stockage - Le téléchargement direct via
llama.cpppeut être très lent, et le téléchargement manuel est présenté comme préférable
Exemples de téléchargement manuel et d’exécution
- Pour un téléchargement manuel plus rapide, il est recommandé d’utiliser huggingface_hub
pip install huggingface_hubhf download unsloth/GLM-5.2-GGUF --local-dir unsloth/GLM-5.2-GGUF --include "*UD-IQ2_M*"
- Pour une précision proche du full precision, on peut utiliser
--include "*UD-Q8_K_XL*" - Si le téléchargement se bloque, il est conseillé de consulter Hugging Face Hub, XET debugging
- La commande de téléchargement du Dynamic 1-bit est la suivante
hf download unsloth/GLM-5.2-GGUF --local-dir unsloth/GLM-5.2-GGUF --include "*UD-IQ1_S*"
- Chemins du modèle en mode conversation
- 2-bit :
unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf - 1-bit :
unsloth/GLM-5.2-GGUF/UD-IQ1_S/GLM-5.2-UD-IQ1_S-00001-of-00006.gguf
- 2-bit :
- L’exemple d’exécution
llama-clipointe le premier shard du GGUF 2-bit avec--modelet utilise les paramètres suivants--temp 1.0--top-p 0.95--min-p 0.01
- L’exemple d’exécution directe utilise aussi
-hf unsloth/GLM-5.2-GGUF:UD-IQ2_M
Comportement vérifié à partir d’un exemple de génération
- La documentation inclut un exemple où GLM-5.2 en 2-bit réalise du tool-calling et de la génération SVG
- Après l’exécution de
llama-cli, une demande de création d’un « short Flappy Bird game » est montrée - Le jeu HTML/JavaScript généré en un seul fichier porte le nom
Sunset Flier- Il comprend un
canvas, un écran de démarrage, un écran de game over, un HUD de score,NEW BEST!et un boutonRETRY - Les effets sonores
flap,score,hitetdiesont générés avec la Web Audio API, sans ressource externe - L’état du jeu est géré en quatre étapes :
READY,PLAYING,DYING,OVER - Le meilleur score est enregistré avec
localStorage.getItem('sunsetFlierBest')etlocalStorage.setItem()
- Il comprend un
- La logique du jeu inclut gravité, impulsion de flap, tuyaux aléatoires, collisions, particules, secousses d’écran et système de médailles
GRAVITY = 0.42MAX_FALL = 9PIPE_W = 68PIPE_GAP = 180PIPE_SPEED = 2.6PIPE_SPACING = 220
- Les entrées prises en charge sont la souris, le tactile et le clavier avec
Space,ArrowUp,Enter - Cet exemple de jeu est présenté dans le contexte où il fonctionnait aussi correctement en quantization 1-bit, y compris pour le son
Long contexte et quantization du cache KV
- Pour exploiter un long contexte dans
llama.cpp, il faut réduire l’usage mémoire via la quantization du cache KV llama.cppa récemment ajouté des techniques pour améliorer la précision de cette quantization du cache KV ; la PR associée esthttps://github.com/ggml-org/llama.cpp/pull/21038- Les types pris en charge pour le cache KV sont les suivants
f32f16bf16q8_0q4_0q4_1iq4_nlq5_0q5_1
- La valeur par défaut est
f16 q4_0représente environ 4,5 bits par weight, ce qui permet d’étendre la longueur de contexte d’un facteur16 / 4.5, soit environ 3,5x- Par exemple, un modèle limité auparavant à 10K pourrait atteindre environ 35K
q4_1ajoute un shifting parameter, potentiellement meilleur, et avec 5 bits par weight permet un contexte environ 3,2x plus long- L’exemple d’exécution avec quantization du cache KV utilise le modèle GLM-5.2 GGUF et les paramètres d’échantillonnage suivants
- Chemin du modèle :
unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf --temp 1.0--top-p 0.95--min-p 0.01--cache-type-k q4_1--cache-type-v q4_1
- Chemin du modèle :
Chiffres visibles dans le tableau de benchmarks
- La documentation enchaîne avec un tableau de benchmarks GLM-5.2, mais le contenu fourni ne contient pas les en-têtes de colonnes, il n’est donc pas possible de savoir à quel modèle ou réglage correspond chaque chiffre
- Les benchmarks de raisonnement incluent les lignes et valeurs suivantes
HLE: 40.5, 49.8*, 41.4*, 45, 31, 41.4, 37, 37.7AIME 2026: 99.2, 95.7, 98.3, 98.2, 95.3, 97, -, 94.6GPQA-Diamond: 91.2, 93.6, 93.6, 94.3, 86.2, 90, 93, 90.1
- Les benchmarks de code incluent les lignes et valeurs suivantes
SWE-bench Pro: 62.1, 69.2, 58.6, 54.2, 58.4, 60.6, 59, 55.4NL2Repo: 48.9, 69.7, 50.7, 33.4, 42.7, 47.2, 42.1, 35.5Terminal Bench 2.1 (Terminus-2): 81.0, 85, 84, 74, 63.5, 75, 65, 64
- Les benchmarks agentic incluent les lignes et valeurs suivantes
MCP-Atlas (Public Set): 76.8, 77.8, 75.3, 69.2, 71.8, 76.4, 74.2, 73.6Tool-Decathlon: 48.2, 59.9, 55.6, 48.8, 40.7, -, -, 52.8
1 commentaires
Commentaires sur Hacker News
Je fais tourner le Q4_K_XL. Pour obtenir environ 6 tk/sec, 512 Go de RAM et 2 RTX 3090 avec
llama.cpp -cmoe, ça suffit.Là, c’est à cause de ma DDR4 2400 MHz un peu médiocre, mais avec de la 3200 MHz, ça monterait sans doute jusqu’à environ 9 tk/sec. Le CPU est aussi un EPYC 32 cœurs, donc c’est déjà correct, mais avec un meilleur 64 cœurs, on pourrait probablement atteindre 11 tk/sec.
J’ai monté ça en configuration budget avant que les prix du matériel deviennent délirants, et je le regrette tous les jours, mais malgré tout, c’est formidable de pouvoir faire tourner ce modèle chez soi. C’est bien pour préparer des plans ou rassembler tout le contexte nécessaire avant un prompt one-shot.
Le coût total du matériel était de 2 400 dollars au moment du montage, et en cherchant bien, il y a moyen de faire tourner ce genre de modèle à la maison. On me demande souvent pourquoi faire ça, ou combien on économise par rapport à une API cloud, mais à mon avis, l’affaire Fable a montré la valeur du fait de fonctionner de manière indépendante.
Merci à l’équipe d’unsloth, et Q4_K_XL est solide. Si vous téléchargez un modèle quantifié, prenez la variante K_XL si elle tient.
Même chose pour les chercheurs qui essaient de faire rentrer des modèles open source dans une brosse à dents électrique ou un Tamagotchi.
Sauf si la confidentialité ou la satisfaction de tout posséder soi-même est indispensable, payer un hyperscaler est moins cher, plus pratique, et bien plus rapide en tokens par seconde.
Cela dit, j’aime bien la direction, et j’ai hâte de voir quel matériel d’auto-hébergement existera dans deux ans.
Je m’en sers avec plaisir, et j’ai hâte de tester rapidement ce modèle aussi.
Au-delà de l’exécution de modèles en local, j’utilise aussi cette machine comme principale plateforme de développement à distance. Toutes mes sessions Claude Code tournent désormais dessus dans
tmux.Mes doigts sont ravis de ne plus avoir à toucher en permanence un laptop brûlant. Et Claude Code vide aussi énormément la batterie.
[0] https://medium.com/@rathko/i-built-an-epyc-64-core-512gb-ram...
Rien que la RAM vaut presque 5 000 dollars, et les GPU tournent autour de 2 000 dollars pièce, donc selon les prix actuels, c’est un matériel assez coûteux.
llama.cppde ce modèle ne prend pas encore en charge l’attention clairsemée DSA, donc c’est encore assez incomplet.Du coup, on fait tourner le modèle avec un autre mécanisme que celui utilisé pendant l’entraînement, et il y a eu des résultats montrant une baisse de qualité et de performances.
Quoi qu’il en soit, je ne trouve pas GLM 5.2 aussi intéressant que la famille DeepSeek V4 sur plusieurs aspects. DeepSeek V4 utilise un mécanisme d’attention plus avancé, ce qui économise beaucoup de mémoire de cache KV, surtout avec de longs contextes.
Cela permet au final un traitement par lots plus large, même sur des plateformes grand public. GLM n’a pas ça, et du point de vue de l’architecture de performance sous-jacente, ça me paraît globalement proche de Kimi 2.6. Les deux sont un peu trop lourds pour tourner à pleine qualité de façon raisonnable sur du matériel grand public.
Pas loin. Ma machine a 192 Go de RAM + une RTX 3090 24 Go, et j’ai failli pouvoir le faire tourner.
Pour l’offloading MoE, il faut apparemment 24 Go de VRAM et 256 Go de RAM.
https://unsloth.ai/docs/models/glm-5.2#usage-guide
Dans un ancien fil, quelqu’un disait qu’il fallait 500 000 dollars de matériel.
https://news.ycombinator.com/item?id=48629970
En NVFP4, on peut actuellement obtenir une vitesse correcte, autour de 120 tok/s, avec de la concurrence, pour 80 000 à 90 000 dollars, voire moins.
Avec ce budget, on peut acheter 6 RTX 6000 PRO Blackwell, un CPU correct, une carte mère et une alimentation. Ça fait 576 Go de VRAM.
Si 40 tok/s en décodage et environ 1200 tok/s en préremplissage vous conviennent, on peut même descendre sous les 50 000 dollars.
J’ai l’impression que si le matériel a relativement stagné ces 20 dernières années, c’est en partie parce que les entreprises manquaient de cas d’usage pour justifier le renouvellement.
Sur les 15 dernières années, la majeure partie de l’argent et de l’énergie est allée vers le mobile.
Une inférence locale bon marché pourrait devenir la source de revenus dont les fabricants de serveurs, de PC de bureau et de laptops ont besoin pour se remettre en mouvement.
Je suis un peu tenté d’acheter un GPU avec 24 Go de RAM juste pour essayer.
Dire que « ça rentre » signifie que ça tient dans 256 Go de RAM, mais dans un état fortement quantifié, et que ça restera malgré tout très lent à exécuter
Le chiffre du titre n’est pas la vitesse de génération des tokens, mais la vitesse de traitement du prompt
Si on obtient 10 tok/s et que l’API en fait 20 à 30 tok/s, en apparence ça ne semble pas si mauvais, mais sur un Mac Studio ou sur une machine qui ne charge pas l’ensemble sur le GPU, le traitement du prompt est 20 à 50 fois plus lent qu’avec une configuration 100 % GPU
Au final, c’est ce qui fait que, sans dépenser 50 000 dollars en GPU, ce n’est pas vraiment exploitable en pratique. Et en plus, on utilise toujours un modèle fortement quantifié
Il existe aussi une version double port pour ce type de machine : https://www.nvidia.com/content/dam/en-zz/Solutions/networkin...
Donc 2 x 100GB/s, voire peut-être 2 x 200GB/s. Il faudra sans doute en avoir une en main pour en savoir plus
Ces machines peuvent aussi être mises en cluster. Pour 2 ou 3 unités, avec 2 sous-réseaux IP, c’est assez clair. À partir de 4, il faudra peut-être un switch selon l’impact de la latence réseau
Apple semble avoir oublié les puces de série M avec beaucoup de RAM. Je ne trouve pas en Apple Store de configuration avec plus de 96 Go de RAM unifiée, et même ça coûte un rein
Ça pousse dans plusieurs directions à la fois : les nouveaux desktops IA basés sur le GB10 sont relativement abordables, et le clustering permet d’atteindre 1 To de VRAM
Nvidia, AMD, Intel, Cerebras et d’autres poussent du nouveau matériel, et des modèles open source comme GLM 5.2 progressent à une vitesse absurde
Les modèles flash comme DeepSeek V4 Flash s’améliorent aussi énormément, et la quantification progresse également
Il devient aussi possible d’avoir des harnais capables d’utiliser différents modèles selon la tâche, par exemple un gros modèle pour les travaux difficiles et un petit pour les corvées
Donc ceux qui veulent sortir des API espèrent bientôt pouvoir héberger chez eux des clusters de desktops IA à prix raisonnable et obtenir des performances de niveau Opus
C’est moins cher qu’un H200 équivalent, mais ça reste hors de portée pour un homelab non financé par des RSU d’OpenAI ou d’Anthropic
J’ai l’impression que l’écart se réduit jusqu’au point où on peut faire tourner en local des modèles suffisamment bons, y compris pour le code, et j’imagine que certaines entreprises doivent être un peu nerveuses. Est-ce que je me trompe ?
Mais à l’heure actuelle, très peu de gens peuvent se permettre le matériel nécessaire pour exécuter efficacement ce modèle. Il est peu probable que cela change beaucoup dans les prochaines années
Si Z.ai sortait une version spécialisée pour le code, du type GLM-5.2 Flash, autour de 80B paramètres, les labos américains de pointe auraient davantage de raisons de s’inquiéter
Plus généralement, les entreprises chinoises de l’IA montrent comment accomplir les mêmes choses avec moins de ressources, parfois beaucoup moins, et si cette tendance se poursuit, cela inquiétera les labos de pointe
Cela dit, les entreprises chinoises de l’IA chercheront elles aussi à protéger leur fossé défensif en évitant de publier des modèles bien plus petits mais toujours puissants que leurs modèles phares actuels
Alibaba Qwen semble être dans cette position maintenant. C’est devenu assez calme récemment, et son dernier modèle 395B est trop gros pour que la plupart des gens puissent l’exécuter chez eux. Rien n’indique non plus qu’un modèle plus petit soit prévu cette fois
Avec une équipe de développement d’une dizaine de personnes, investir une fois 50 000 dollars dans un serveur LLM peut être une option assez séduisante
On obtient des tokens illimités, des performances correctes, des options de mise à niveau et des possibilités d’intégration au produit
En général, pour une entreprise qui veut intégrer un LLM à son produit, l’approche du LLM local semble encore plus attrayante. Même un modèle un peu bête est largement assez bon pour beaucoup d’usages d’intégration produit
Mais les options se résument à un build CPU extrêmement lent avec 10 000 dollars de RAM, ou 90 000 dollars de GPU, ou bien à un modèle fortement quantifié dont la qualité est difficile à comparer
On peut en monter un pour le plaisir, mais cela ne change pas à lui seul l’équation économique. Le simple fait que ce soit possible reste néanmoins intéressant
OpenAI et Anthropic n’aimeront probablement pas le timing de sortie de GLM 5.2
Cela montre assez bien qu’il ne s’agissait pas d’un fossé magique, mais simplement d’une avance au départ
On pourrait utiliser un Mac Studio 192 Go de RAM, mais c’est en dessous de la RAM minimale indiquée
Comme c’est un MoE, est-ce qu’on pourrait s’en sortir en swappant sur un disque rapide ?
Et les performances seraient catastrophiques, autour de 0,1 tok/s
J’ai énormément de respect pour le travail d’unsloth, qui a aidé des millions de personnes à se lancer dans l’IA locale, mais ce billet ressemble un peu à du clickbait au téléchargement
Déporter trop de couches sur le CPU ne fonctionne tout simplement pas bien. J’ai essayé plusieurs fois, et j’ai fini par devoir faire un
rm -rfsur de lourds dossiers de cache Hugging FaceJe doute même que faire tourner une quantification 1 bit ou 2 bits de GLM 5.2 en grande partie hors VRAM soit plus utile qu’un Qwen3.6-27B Q8_0 entièrement chargé en VRAM
Quoi que dise l’article, je pense que quiconque essaiera de faire tourner ça sur une machine avec 256 Go de RAM passera un mauvais moment
Un minimum bien plus réaliste, c’est 512 Go
Heureusement, j’ai dans mon bureau à domicile deux stations de travail dual Xeon avec 512 Go de RAM, achetées à bas prix avant la hausse des tarifs, donc je peux expérimenter un peu