Nvidia propose un système CPU monstrueux pour les PC Windows
(twitter.com/lemire)- Le système haute performance de NVIDIA pour PC Windows repose sur une puce où CPU et GPU partagent 128 Go de mémoire unifiée et jusqu’à 6 144 cœurs CUDA
- Le CPU comprend 10 cœurs de performance et 10 cœurs d’efficacité ; les cœurs de performance sont basés sur le Cortex-X925, et le SVE2 se situe en dessous des puces AMD récentes mais au-dessus d’Apple Silicon
- Le principal élément différenciant est la mémoire unifiée, qui ne sépare pas la mémoire du CPU et du GPU ; elle est plus lente qu’une mémoire GPU dédiée, mais vise les besoins de bande passante et de coût nécessaires à l’exécution locale de modèles d’IA
- La demande pour l’exécution locale de modèles d’IA reste vue comme une application de niche, mais certains estiment que 128 Go de mémoire partagée peuvent compter davantage que les TFLOPs GPU de pointe pour des expérimentations à l’échelle étudiante
- Les points de comparaison incluent l’AMD Strix Halo, le GPU IA Intel Xe3P et l’AVX-512 des processeurs AMD récents, avec aussi la contrainte d’une RAM soudée difficile à remplacer après achat
Spécifications système et architecture mémoire
- Le système CPU pour PC Windows proposé par Nvidia combine 128 Go de mémoire partagée et jusqu’à 6 144 cœurs CUDA de dernière génération
- Le CPU combine 10 cœurs de performance et 10 cœurs d’efficacité, les cœurs de performance étant basés sur le Cortex-X925
- Le SVE2 du Cortex-X925 est présenté comme inférieur, sur le papier, aux puces AMD récentes, mais supérieur à Apple Silicon
- Tous les processeurs AMD récents prennent en charge l’AVX-512, considéré comme nettement supérieur au SVE2 du Cortex-X925, capable de traiter davantage de données et plus polyvalent
- Intel est jusqu’à présent resté prudent sur l’intégration de l’AVX-512 dans les systèmes grand public
- Les 128 Go de mémoire unifiée reposent sur un pool unique partagé au lieu d’une mémoire séparée pour le CPU et le GPU, une architecture similaire à celle adoptée par Apple il y a quelques années
- La mémoire unifiée gagne en popularité ; elle n’est pas aussi rapide qu’une mémoire GPU dédiée, mais a l’avantage d’être suffisamment abordable pour offrir assez de bande passante pour l’exécution locale de modèles d’IA
- Avec une RAM unifiée, il n’est pas nécessaire d’envoyer les données entre CPU et GPU, tout se trouvant dans un pool mémoire unique, ce qui donne une impression d’opérations zero-copy
- La grande question est de savoir comment Intel et AMD vont réagir
Divers avis associés
- L’ampleur de la demande pour l’exécution locale de modèles d’IA reste incertaine et il s’agit encore d’une application de niche
- Certains jugent que ce système pourrait être une bonne machine pour les jeux vidéo, tandis que d’autres rétorquent qu’il est conçu pour de grands modèles plutôt que pour le gaming, et pourrait donc être moins performant que prévu dans ce domaine
- Pour des expérimentations à l’échelle étudiante, 128 Go de mémoire partagée pourraient compter davantage que les TFLOPs GPU de pointe et changer les modèles ou charges de travail qu’il est possible de tester en local
- La RAM constitue un compromis, car elle ne peut pas être remplacée plus tard et est entièrement soudée
- Côté capacité mémoire, certains estiment que 128 Go seront insuffisants et voudraient 256 Go ou 512 Go ; d’autres pensent qu’une machine « beast » pour l’IA exige au minimum 512 Go, voire une option à 1 To de mémoire unifiée
- La réponse brève de l’auteur à la question du choix de 128 Go : « le coût »
- Concernant le système d’exploitation, certains regrettent qu’il ne fasse pas tourner « regular Windows » et suggèrent d’installer Linux
- L’AMD Strix Halo est présenté comme un produit similaire avec 128 Go de mémoire unifiée et un gros iGPU, servant de point de comparaison avec l’AVX-512 du Zen 5 desktop
- D’après un retour d’expérience après plusieurs mois avec l’AMD Strix Halo dans un homelab local LLM, il permet d’exécuter des LLM de niveau prosumer, mais le véritable goulot d’étranglement reste la bande passante mémoire
- La nouvelle puce Nvidia nécessiterait plus de 300 Go/s de bande passante mémoire
- Une RTX5090 peut déjà être moins chère pour des modèles plus petits et plus rapides si l’on dispose déjà d’un desktop ; cette famille de cartes serait mieux adaptée à des modèles locaux plus volumineux
- Les avantages de l’IA locale incluent le fait de ne pas envoyer des secrets ou des données clients à des tiers à la responsabilité floue, d’éviter les abonnements SaaS et le coût des tokens, et de permettre à un modèle local d’apprendre les habitudes d’usage du PC pour exécuter des tâches
- Les modèles locaux pourraient fonctionner comme des fonctions invisibles pour l’utilisateur, tandis que les tâches demandant plus d’intelligence ou davantage de contexte pourraient être déportées à distance
- L’essentiel n’est peut-être pas le modèle local lui-même, mais la plateforme logicielle qui prend en charge des applications IA intégrées, et un moyen de maintenir la pertinence du desktop
- Un exemple de cas d’usage local de l’IA est l’exécution de Google Chrome, illustré par la documentation built-in AI de Chrome
- L’Intel Xe3P AI GPU est cité comme comparaison avec 160 Go de LPDDR5X, une possibilité de monter à 480 Go, une interface mémoire 640 bits et une configuration PCIe x16 : https://tomshardware.com/pc-components/gpus/…
1 commentaires
Réactions sur Hacker News
Le pool de mémoire unifiée semble devoir continuer à être un vrai « game changer », surtout pour les architectures système hors datacenter
Les jeux récents ou les usages grand public n’exploitent en réalité ni toute la bande passante PCIe du GPU ni toute la bande passante de la mémoire GDDR, et pour l’IA locale non plus, le gain d’une mémoire plus rapide n’est pas si important pour le consommateur moyen
La mémoire unifiée permet d’optimiser l’utilisation selon les besoins, évite d’avoir à réfléchir séparément au dimensionnement GDDR/DDR, et réduit le coût mémoire global sur les appareils compacts et portables
L’inconvénient, c’est la sécurité : des attaques par canal auxiliaire sur la mémoire côté GPU ou CPU pourraient compromettre l’autre côté aussi, donc la conception de systèmes sûrs en mémoire va probablement devenir plus importante, ce qui semble plutôt favorable aux partisans de Rust
Dans le jeu, le point clé n’est pas de saturer le matériel, mais de produire un rendu cohérent dans les délais de frame
Même si on cherchait à saturer une 5090 avec un jeu, le marché visé serait petit, et il faut que la config réelle des utilisateurs tienne la cadence aussi bien que la machine de test pour maintenir le framerate
L’une des plus grandes différences entre les consoles actuelles et les PC actuels, c’est justement la mémoire unifiée
Pour 99 % des tâches, il faut au minimum un ordre de grandeur de plus en mémoire système qu’en mémoire GPU, et la plupart des systèmes n’ont presque jamais besoin de plus de mémoire GPU que ce qu’exigent la vidéo, la navigation, etc.
Ce n’est pas parce qu’un nouveau cas d’usage apparaît que toute la structure s’inverse complètement ; si aujourd’hui il faut 128 Go et que l’IA locale demande aussi 128 Go, alors pour continuer à faire les deux il faudra 256 Go
On dirait plutôt un argument pour dire qu’il ne faut pas mettre une mémoire aussi chère côté GPU, et si l’on ne fait que de l’inférence, c’est peut-être vrai
Avec une architecture à mémoire unifiée, on abandonne une part importante des performances ; cela peut avoir du sens dans certains cas, mais ce n’est pas une solution universelle
Je ne sais pas combien de gens font tourner des modèles d’IA en local, et cela reste encore un marché de niche, mais à voir les sorties récentes de Gemma, la probabilité de faire tourner certains modèles en local a augmenté ne serait-ce que pour des raisons de coût
C’est encore plus vrai si l’on tient compte de la sécurité en entreprise, mais je ne vois pas bien pourquoi ce type d’architecture serait particulièrement bon pour le jeu, donc la phrase complète dans le texte d’origine me laisse perplexe
Au passage, coller partout des formules du genre « top 2 % des scientifiques mondiaux Stanford/Elsevier 2025, top 1000 des développeurs GitHub » donne plutôt un effet contre-productif
Je l’ai déployé sur plusieurs MacBook M5, et il s’est révélé réellement utile sur beaucoup de tâches
Il ne remplace pas Opus ni les modèles actuels au niveau de Sonnet, mais il est étonnamment bon pour sa taille, et semble du niveau de l’époque de Sonnet 4, ou un peu avant
Il est bien plus fiable que les modèles Gemma pour l’appel d’outils, le code et les tâches agentiques, et encore plus rapide en particulier avec MTP
Je ne vois pas pourquoi les économies d’échelle ne s’appliqueraient pas ici comme pour les autres charges de calcul
Je ne veux pas dénigrer le travail de l’auteur, mais ce texte donne vraiment l’impression d’avoir été écrit à partir d’une fiche technique, sans examen approfondi
Il a le même nombre de cœurs qu’une 5070 mobile, mais sa bande passante partagée de crête et son TDP partagé de crête ne représentent chacun qu’environ les 2/3, donc les performances GPU seules ont de fortes chances d’être autour de la moitié de celles d’une unité dédiée
Apple n’a pas SVE2, mais dispose d’AMX propriétaire et de SME, et je ne vois pas pourquoi SVE2 serait censé être plus rapide que SME
Il parle d’un seul type de cœur sans traiter de la configuration globale, et on sait déjà depuis un an comment le DGX Spark se compare aux puces Apple
Le CPU se situe à peu près au niveau d’un M3 Pro, le calcul GPU entre un M4 Pro et un M4 Max hors bande passante, et son seul vrai avantage est de faire tourner CUDA
À sa sortie, il risque d’avoir 2 à 3 générations de retard sur Apple et 1 génération sur AMD, et l’autre atout du DGX Spark, le NIC permettant de les chaîner, est absent ici aussi
Sur le Spark, c’est bien plus rapide que sur un M5 Max, et à modèle, quantification, requête et réglages vllm aussi identiques que possible, sur les tâches avec gros prompts et faible probabilité de cache, une seule machine Spark finit souvent de répondre avant même qu’un MBP ait terminé le prefill
Sur ce point Apple est avantagé, mais la puissance de calcul GPU du Spark est bien supérieure aux 17 FP32 TFLOPS du M5 Max, à peu près du simple au double
Il dispose de 6 144 cœurs CUDA comme une 5070 desktop, et c’est essentiellement une version ralentie par une mémoire plus lente et un TDP plus faible, ce qui le place autour de 29,7 contre 31 FP32 TFLOPS pour la 5070
Globalement, le Spark est correct, sans être extraordinaire
On a l’impression qu’il découvre seulement maintenant une puce que l’industrie connaît depuis longtemps, sans presque connaître les produits concurrents, et qu’il poste « BEAST », « GAME CHANGER »
Et si le DGX Spark avait lui-même été un game changer ? Dans l’ensemble, il a surtout été une grosse déception, et je doute qu’un laptop Nvidia hors de prix change la donne
Le Qualcomm Snapdragon X2 Elite Extreme surpasse largement la puce Nvidia en performances CPU monocœur, et bat aussi les meilleurs produits d’Intel et d’AMD
Il dispose aussi de mémoire unifiée, et c’est le seul CPU à jouer dans la même catégorie que la série Apple M à la fois en performances CPU et en efficacité énergétique
On peut l’acheter dès maintenant dans des laptops, pas à la fin de l’année, et les gens sous-estiment Qualcomm
Si ça ne prend pas en charge Linux, ça n’a presque aucun intérêt, et les deux plateformes importantes dans ce domaine sont Linux et Darwin
Qualcomm, c’est comme AMD l’a été pendant des décennies côté GPU : beaucoup d’annonces, beaucoup de fans sur Internet qui lisent les pages web, mais dès qu’on essaie vraiment de le faire tourner, c’est un cauchemar
Le Snapdragon X Elite ne tourne pas sous Linux, donc il est inutile comme plateforme, au point que des utilisateurs passionnés ont mieux réussi à faire tourner le M1, ce qui pousse à utiliser un vieux Mac plutôt que Qualcomm
La comparaison devrait plutôt se faire avec le X930 ou le C1 du Mediatek Dimensity 9500, c’est-à-dire du côté du Snapdragon 8 Elite Gen 5 / X2 Elite
Qualcomm garde encore l’avantage en performances, mais l’écart se réduit, et surtout Nvidia construit un écosystème bien meilleur
Nvidia a de bien meilleurs canaux de distribution et partenaires, bâtis sur les GPU de gaming PC, et ses relations avec les développeurs de jeux sont unmatched dans l’industrie
Qualcomm n’a toujours pas montré une vraie capacité d’exécution ni sur les CPU PC ni sur les CPU serveur
Les mauvaises expériences passées sont trop nombreuses pour que les gens n’hésitent pas, et même s’ils semblent faire plus d’efforts aujourd’hui, il faudra du temps pour restaurer leur réputation sur le marché PC
Le communiqué de presse sur les appareils réels est ici
https://nvidianews.nvidia.com/news/nvidia-microsoft-windows-...
J’ai été surpris que si peu de gens soulignent que Microsoft, et surtout NVIDIA, sortent essentiellement des appareils qui entrent en conflit avec les modèles d’IA cloud facturés à l’usage
Si l’on regarde les autres annonces et signaux, comme un meilleur BYOK hors ligne pour Copilot et l’idée d’un futur avec IA illimitée, les deux entreprises semblent avoir compris qu’une IA uniquement dans le cloud n’est ni durable, ni intrinsèquement à leur avantage
Malgré tout, leur volonté d’affaiblir OpenAI avec ce type de produit saute aux yeux
Microsoft pousse très fortement vers l’IA locale
Je ne sais pas si les LLM locaux seront largement adoptés à moins que les prix n’augmentent vraiment
Utiliser des petits modèles hébergés moins chers comme Sonnet ou Kimi a du sens, et ces appareils ne pourront probablement pas faire tourner des modèles du niveau de Kimi, qui est pourtant à peu près le minimum pour des tâches d’agent qui ne soient pas de simples gadgets
Dépenser 5 000 $ pour éviter un abonnement à 20 $, à moins d’un besoin de sécurité très spécifique, ça ne semble pas très logique
Tu as déjà vu Dungeon Crawler Carl ?
La plupart des gens ne semblent pas bien comprendre ce que ce genre de laptop peut apporter
Avant l’IA locale, on utilisera probablement surtout de l’IA hybride
Faire tourner de gros modèles en local est irréaliste, mais si on imagine qu’une partie d’un workflow agentique s’exécute dans le cloud et que les tâches plus petites tournent en local, cela devient une excellente combinaison
Pour les tâches de base, on n’a pas besoin de modèles comme Opus/Code/DeepSeek/Kimi, et des modèles comme Gemma4:12b/Qwen-27b peuvent être exécutés localement avec une latence bien plus faible
Un laptop capable de combiner un grand modèle distant avec cinq modèles locaux spécialisés par domaine, je voudrais l’utiliser tout de suite
On peut imaginer OpenCode décider quelles tâches faire tourner localement avec un petit modèle, puis déterminer s’il existe un modèle local adapté à une tâche spécifique ou s’il faut utiliser un modèle cloud
Mon inquiétude, c’est de savoir si ce hardware est assez puissant pour gérer des changements rapides entre modèles locaux ; probablement pas, mais j’espère me tromper
Même les modèles de frontière obtiennent désormais de meilleurs benchmarks avec seulement 200 000 tokens, et il reste encore beaucoup de marge pour la distillation
Je ne vois pas bien en quoi c’est un « monstre »
Les 300 Go/s de bande passante mémoire sont seulement un peu au-dessus des 256 Go/s de l’AMD Strix Halo, et à même configuration de 128 Go de RAM, c’est même moins de la moitié des 614 Go/s du M5 Max 128 Go
Comme la plupart des personnes intéressées seront sans doute des passionnés d’IA, j’insiste sur la bande passante mémoire ; en plus, c’est Windows
Même des workflows à 256k tokens, qui prendraient presque deux fois plus de temps avant le premier token sur le M5, pourraient tourner de manière réaliste
AMD peut tout faire tourner parce que ce sont des machines x86, Apple maintient toute la stack MacOS, mais Nvidia en est à peine à faire coïncider une seule version d’Ubuntu par génération de Jetson, ce qui est franchement embarrassant
Ils devraient affecter leurs agents dont ils parlent sans arrêt au vrai travail de support du système d’exploitation
Je suis vraiment curieux de savoir en quoi c’est différent de quelque chose comme l’AMD Ryzen AI Max, déjà disponible et compatible avec 128 Go de mémoire unifiée
Je ne sais pas qui, en 2026, s’obstine encore à parler de « Windows PC »
C’est juste un ordinateur personnel, qui peut généralement faire tourner plusieurs systèmes d’exploitation sans problème
L’expression « Windows PC » donne l’impression soit que Microsoft vous paie, soit que vous parlez de technologie comme quelqu’un qui envoie un document Word avec des images collées dedans
Inutile d’attacher de force le plaisir d’un appareil indépendant du système d’exploitation à un OS médiocre
Il est probablement susceptible d’acheter plus de PC que tous les autres marchés réunis
Même pour un usage personnel, ceux qui font un dual boot entre Windows et un autre système d’exploitation sont une toute petite minorité
« Windows PC » est une façon assez raisonnable de distinguer « ce qu’Apple fabrique » de « ce que fabriquent les autres », et le marché des PC non fabriqués par Apple mais non livrés avec Windows par défaut est vraiment minuscule
Honnêtement, avoir une attitude aussi agressive sur ce sujet paraît étrange
Le mot PC est ambigu : il peut désigner tous les ordinateurs personnels au sens originel, ou la lignée IBM PC par opposition au Mac
Il suffit de penser à la pub « I'm a Mac, I'm a PC »
Si on dit simplement PC, aujourd’hui les gens hésitent réellement sur le sens, et « IBM PC » fait daté, tandis que « IBM PC clone » est encore pire
Du coup, « Windows PC » est un nom assez correct, et « Non-Mac PC » sonne mal
Pas besoin d’en parler de façon insultante
Si Windows est encore utilisé en entreprise et sur certains PC de bureau domestiques, notamment pour le jeu, c’est à cause de la compatibilité matérielle et logicielle
On l’utilise parce qu’on développe des programmes Windows pour le travail, et aussi parce qu’on utilise des pilotes qui n’existent pas encore sur Win-for-ARM
Donc, pour la plupart des gens, « Windows PC » signifie encore un PC Windows x64
Si la compatibilité Windows-Arm64 n’est pas suffisante, le risque pour Microsoft est que, puisqu’il faudra de toute façon de nouveaux logiciels et du nouveau matériel, les gens pourraient aussi abandonner Windows lui-même
Même si un Hackintosh Nvidia maudit serait franchement hilarant
Pour l’utilisateur moyen, les systèmes d’exploitation pour ordinateur se résument à Windows, Apple et ChromeOS ; Nvidia n’ira pas vers ChromeOS, et Apple déteste Nvidia, donc le seul OS normal qui soit commercialisable reste Windows
Le marketing précise bien que ces appareils ne sont pas des Chromebook bon marché qui ont ruiné l’expérience desktop de beaucoup de gens
Qualcomm avait promis le support de Linux puis a échoué, et ceux qui ont été échaudés par cette promesse n’auront probablement pas envie de racheter ce matériel
Promettre un Windows PC réduit aussi les raisons de se plaindre que Linux, FreeBSD ou SerenityOS ne démarrent pas, et vu l’échec de Qualcomm, Nvidia semble probablement faire le bon choix