2 points par GN⁺ 4 시간 전 | 1 commentaires | Partager sur WhatsApp
  • Le système haute performance de NVIDIA pour PC Windows repose sur une puce où CPU et GPU partagent 128 Go de mémoire unifiée et jusqu’à 6 144 cœurs CUDA
  • Le CPU comprend 10 cœurs de performance et 10 cœurs d’efficacité ; les cœurs de performance sont basés sur le Cortex-X925, et le SVE2 se situe en dessous des puces AMD récentes mais au-dessus d’Apple Silicon
  • Le principal élément différenciant est la mémoire unifiée, qui ne sépare pas la mémoire du CPU et du GPU ; elle est plus lente qu’une mémoire GPU dédiée, mais vise les besoins de bande passante et de coût nécessaires à l’exécution locale de modèles d’IA
  • La demande pour l’exécution locale de modèles d’IA reste vue comme une application de niche, mais certains estiment que 128 Go de mémoire partagée peuvent compter davantage que les TFLOPs GPU de pointe pour des expérimentations à l’échelle étudiante
  • Les points de comparaison incluent l’AMD Strix Halo, le GPU IA Intel Xe3P et l’AVX-512 des processeurs AMD récents, avec aussi la contrainte d’une RAM soudée difficile à remplacer après achat

Spécifications système et architecture mémoire

  • Le système CPU pour PC Windows proposé par Nvidia combine 128 Go de mémoire partagée et jusqu’à 6 144 cœurs CUDA de dernière génération
  • Le CPU combine 10 cœurs de performance et 10 cœurs d’efficacité, les cœurs de performance étant basés sur le Cortex-X925
  • Le SVE2 du Cortex-X925 est présenté comme inférieur, sur le papier, aux puces AMD récentes, mais supérieur à Apple Silicon
  • Tous les processeurs AMD récents prennent en charge l’AVX-512, considéré comme nettement supérieur au SVE2 du Cortex-X925, capable de traiter davantage de données et plus polyvalent
    • Intel est jusqu’à présent resté prudent sur l’intégration de l’AVX-512 dans les systèmes grand public
  • Les 128 Go de mémoire unifiée reposent sur un pool unique partagé au lieu d’une mémoire séparée pour le CPU et le GPU, une architecture similaire à celle adoptée par Apple il y a quelques années
  • La mémoire unifiée gagne en popularité ; elle n’est pas aussi rapide qu’une mémoire GPU dédiée, mais a l’avantage d’être suffisamment abordable pour offrir assez de bande passante pour l’exécution locale de modèles d’IA
    • Avec une RAM unifiée, il n’est pas nécessaire d’envoyer les données entre CPU et GPU, tout se trouvant dans un pool mémoire unique, ce qui donne une impression d’opérations zero-copy
  • La grande question est de savoir comment Intel et AMD vont réagir
Publicité

Divers avis associés

  • L’ampleur de la demande pour l’exécution locale de modèles d’IA reste incertaine et il s’agit encore d’une application de niche
  • Certains jugent que ce système pourrait être une bonne machine pour les jeux vidéo, tandis que d’autres rétorquent qu’il est conçu pour de grands modèles plutôt que pour le gaming, et pourrait donc être moins performant que prévu dans ce domaine
  • Pour des expérimentations à l’échelle étudiante, 128 Go de mémoire partagée pourraient compter davantage que les TFLOPs GPU de pointe et changer les modèles ou charges de travail qu’il est possible de tester en local
  • La RAM constitue un compromis, car elle ne peut pas être remplacée plus tard et est entièrement soudée
  • Côté capacité mémoire, certains estiment que 128 Go seront insuffisants et voudraient 256 Go ou 512 Go ; d’autres pensent qu’une machine « beast » pour l’IA exige au minimum 512 Go, voire une option à 1 To de mémoire unifiée
    • La réponse brève de l’auteur à la question du choix de 128 Go : « le coût »
  • Concernant le système d’exploitation, certains regrettent qu’il ne fasse pas tourner « regular Windows » et suggèrent d’installer Linux
  • L’AMD Strix Halo est présenté comme un produit similaire avec 128 Go de mémoire unifiée et un gros iGPU, servant de point de comparaison avec l’AVX-512 du Zen 5 desktop
    • D’après un retour d’expérience après plusieurs mois avec l’AMD Strix Halo dans un homelab local LLM, il permet d’exécuter des LLM de niveau prosumer, mais le véritable goulot d’étranglement reste la bande passante mémoire
    • La nouvelle puce Nvidia nécessiterait plus de 300 Go/s de bande passante mémoire
  • Une RTX5090 peut déjà être moins chère pour des modèles plus petits et plus rapides si l’on dispose déjà d’un desktop ; cette famille de cartes serait mieux adaptée à des modèles locaux plus volumineux
  • Les avantages de l’IA locale incluent le fait de ne pas envoyer des secrets ou des données clients à des tiers à la responsabilité floue, d’éviter les abonnements SaaS et le coût des tokens, et de permettre à un modèle local d’apprendre les habitudes d’usage du PC pour exécuter des tâches
  • Les modèles locaux pourraient fonctionner comme des fonctions invisibles pour l’utilisateur, tandis que les tâches demandant plus d’intelligence ou davantage de contexte pourraient être déportées à distance
  • L’essentiel n’est peut-être pas le modèle local lui-même, mais la plateforme logicielle qui prend en charge des applications IA intégrées, et un moyen de maintenir la pertinence du desktop
  • Un exemple de cas d’usage local de l’IA est l’exécution de Google Chrome, illustré par la documentation built-in AI de Chrome
  • L’Intel Xe3P AI GPU est cité comme comparaison avec 160 Go de LPDDR5X, une possibilité de monter à 480 Go, une interface mémoire 640 bits et une configuration PCIe x16 : https://tomshardware.com/pc-components/gpus/…

1 commentaires

 
GN⁺ 4 시간 전
Réactions sur Hacker News
  • Le pool de mémoire unifiée semble devoir continuer à être un vrai « game changer », surtout pour les architectures système hors datacenter
    Les jeux récents ou les usages grand public n’exploitent en réalité ni toute la bande passante PCIe du GPU ni toute la bande passante de la mémoire GDDR, et pour l’IA locale non plus, le gain d’une mémoire plus rapide n’est pas si important pour le consommateur moyen
    La mémoire unifiée permet d’optimiser l’utilisation selon les besoins, évite d’avoir à réfléchir séparément au dimensionnement GDDR/DDR, et réduit le coût mémoire global sur les appareils compacts et portables
    L’inconvénient, c’est la sécurité : des attaques par canal auxiliaire sur la mémoire côté GPU ou CPU pourraient compromettre l’autre côté aussi, donc la conception de systèmes sûrs en mémoire va probablement devenir plus importante, ce qui semble plutôt favorable aux partisans de Rust

    • La formule sur le fait d’« exploiter au maximum » la bande passante PCIe du GPU ou celle de la GDDR est un peu confuse
      Dans le jeu, le point clé n’est pas de saturer le matériel, mais de produire un rendu cohérent dans les délais de frame
      Même si on cherchait à saturer une 5090 avec un jeu, le marché visé serait petit, et il faut que la config réelle des utilisateurs tienne la cadence aussi bien que la machine de test pour maintenir le framerate
    • Du point de vue d’un développeur de jeux, si les jeux modernes n’arrivent pas à utiliser toute la bande passante GPU, ce n’est pas par paresse, c’est parce que c’est vraiment difficile
      L’une des plus grandes différences entre les consoles actuelles et les PC actuels, c’est justement la mémoire unifiée
    • Si on rend les appareils impossibles à mettre à niveau, c’est pratique pour les fabricants, qui peuvent imposer une segmentation du marché et appliquer de grosses marges sur de petites hausses de RAM, comme Apple
    • L’argument économique ne me convainc pas vraiment
      Pour 99 % des tâches, il faut au minimum un ordre de grandeur de plus en mémoire système qu’en mémoire GPU, et la plupart des systèmes n’ont presque jamais besoin de plus de mémoire GPU que ce qu’exigent la vidéo, la navigation, etc.
      Ce n’est pas parce qu’un nouveau cas d’usage apparaît que toute la structure s’inverse complètement ; si aujourd’hui il faut 128 Go et que l’IA locale demande aussi 128 Go, alors pour continuer à faire les deux il faudra 256 Go
      On dirait plutôt un argument pour dire qu’il ne faut pas mettre une mémoire aussi chère côté GPU, et si l’on ne fait que de l’inférence, c’est peut-être vrai
    • La DRAM optimisée pour le CPU et celle optimisée pour le GPU sont assez différentes
      Avec une architecture à mémoire unifiée, on abandonne une part importante des performances ; cela peut avoir du sens dans certains cas, mais ce n’est pas une solution universelle
  • Je ne sais pas combien de gens font tourner des modèles d’IA en local, et cela reste encore un marché de niche, mais à voir les sorties récentes de Gemma, la probabilité de faire tourner certains modèles en local a augmenté ne serait-ce que pour des raisons de coût
    C’est encore plus vrai si l’on tient compte de la sécurité en entreprise, mais je ne vois pas bien pourquoi ce type d’architecture serait particulièrement bon pour le jeu, donc la phrase complète dans le texte d’origine me laisse perplexe
    Au passage, coller partout des formules du genre « top 2 % des scientifiques mondiaux Stanford/Elsevier 2025, top 1000 des développeurs GitHub » donne plutôt un effet contre-productif

    • On dirait la version 2026 de la déclaration de Ken Olsen disant qu’« il n’y a aucune raison d’avoir un ordinateur chez soi »
    • Quand je vois ce genre de formule dans une bio personnelle, j’y lis surtout une bannière disant qu’il faut recevoir tout le reste dans le registre de l’auto-promotion
    • Pour la plupart des tâches, Qwen 3.6 est très au-dessus de Gemma
      Je l’ai déployé sur plusieurs MacBook M5, et il s’est révélé réellement utile sur beaucoup de tâches
      Il ne remplace pas Opus ni les modèles actuels au niveau de Sonnet, mais il est étonnamment bon pour sa taille, et semble du niveau de l’époque de Sonnet 4, ou un peu avant
      Il est bien plus fiable que les modèles Gemma pour l’appel d’outils, le code et les tâches agentiques, et encore plus rapide en particulier avec MTP
    • Le lectorat de HN n’est globalement pas la cible de son auto-promotion, mais il y a clairement une cible, et ça doit avoir un certain effet
    • J’ai du mal à croire qu’exécuter des modèles sur un laptop devienne moins cher qu’en datacenter
      Je ne vois pas pourquoi les économies d’échelle ne s’appliqueraient pas ici comme pour les autres charges de calcul
  • Je ne veux pas dénigrer le travail de l’auteur, mais ce texte donne vraiment l’impression d’avoir été écrit à partir d’une fiche technique, sans examen approfondi
    Il a le même nombre de cœurs qu’une 5070 mobile, mais sa bande passante partagée de crête et son TDP partagé de crête ne représentent chacun qu’environ les 2/3, donc les performances GPU seules ont de fortes chances d’être autour de la moitié de celles d’une unité dédiée
    Apple n’a pas SVE2, mais dispose d’AMX propriétaire et de SME, et je ne vois pas pourquoi SVE2 serait censé être plus rapide que SME
    Il parle d’un seul type de cœur sans traiter de la configuration globale, et on sait déjà depuis un an comment le DGX Spark se compare aux puces Apple
    Le CPU se situe à peu près au niveau d’un M3 Pro, le calcul GPU entre un M4 Pro et un M4 Max hors bande passante, et son seul vrai avantage est de faire tourner CUDA
    À sa sortie, il risque d’avoir 2 à 3 générations de retard sur Apple et 1 génération sur AMD, et l’autre atout du DGX Spark, le NIC permettant de les chaîner, est absent ici aussi

    • Un autre avantage par rapport à Apple, c’est le prefill
      Sur le Spark, c’est bien plus rapide que sur un M5 Max, et à modèle, quantification, requête et réglages vllm aussi identiques que possible, sur les tâches avec gros prompts et faible probabilité de cache, une seule machine Spark finit souvent de répondre avant même qu’un MBP ait terminé le prefill
    • Le calcul GPU mentionné ici semble viser des tâches dépendantes de la bande passante mémoire, comme la génération de tokens
      Sur ce point Apple est avantagé, mais la puissance de calcul GPU du Spark est bien supérieure aux 17 FP32 TFLOPS du M5 Max, à peu près du simple au double
      Il dispose de 6 144 cœurs CUDA comme une 5070 desktop, et c’est essentiellement une version ralentie par une mémoire plus lente et un TDP plus faible, ce qui le place autour de 29,7 contre 31 FP32 TFLOPS pour la 5070
    • Lemire s’intéresse de façon très étroite au SIMD CPU, donc dans cette niche cela peut être intéressant
      Globalement, le Spark est correct, sans être extraordinaire
    • C’est clairement du fluff, et si ce tweet sans valeur est arrivé en une de HN, c’est probablement à cause de cette habitude de sanctifier certaines personnes et de traiter chacune de leurs déclarations comme une prophétie
      On a l’impression qu’il découvre seulement maintenant une puce que l’industrie connaît depuis longtemps, sans presque connaître les produits concurrents, et qu’il poste « BEAST », « GAME CHANGER »
      Et si le DGX Spark avait lui-même été un game changer ? Dans l’ensemble, il a surtout été une grosse déception, et je doute qu’un laptop Nvidia hors de prix change la donne
  • Le Qualcomm Snapdragon X2 Elite Extreme surpasse largement la puce Nvidia en performances CPU monocœur, et bat aussi les meilleurs produits d’Intel et d’AMD
    Il dispose aussi de mémoire unifiée, et c’est le seul CPU à jouer dans la même catégorie que la série Apple M à la fois en performances CPU et en efficacité énergétique
    On peut l’acheter dès maintenant dans des laptops, pas à la fin de l’année, et les gens sous-estiment Qualcomm

    • Le support du système d’exploitation est catastrophique
      Si ça ne prend pas en charge Linux, ça n’a presque aucun intérêt, et les deux plateformes importantes dans ce domaine sont Linux et Darwin
      Qualcomm, c’est comme AMD l’a été pendant des décennies côté GPU : beaucoup d’annonces, beaucoup de fans sur Internet qui lisent les pages web, mais dès qu’on essaie vraiment de le faire tourner, c’est un cauchemar
      Le Snapdragon X Elite ne tourne pas sous Linux, donc il est inutile comme plateforme, au point que des utilisateurs passionnés ont mieux réussi à faire tourner le M1, ce qui pousse à utiliser un vieux Mac plutôt que Qualcomm
    • Le X925 de la puce Nvidia est un ancien design de CPU Arm vieux de 2 ans, donc c’est cela qu’il a battu
      La comparaison devrait plutôt se faire avec le X930 ou le C1 du Mediatek Dimensity 9500, c’est-à-dire du côté du Snapdragon 8 Elite Gen 5 / X2 Elite
      Qualcomm garde encore l’avantage en performances, mais l’écart se réduit, et surtout Nvidia construit un écosystème bien meilleur
      Nvidia a de bien meilleurs canaux de distribution et partenaires, bâtis sur les GPU de gaming PC, et ses relations avec les développeurs de jeux sont unmatched dans l’industrie
      Qualcomm n’a toujours pas montré une vraie capacité d’exécution ni sur les CPU PC ni sur les CPU serveur
    • Microsoft gère très mal le portage Arm de Windows, ce qui empêche Qualcomm d’en tirer pleinement parti
    • Qualcomm est dans une situation du genre « si on te trompe une fois, c’est ta faute ; deux fois, on ne t’y reprend plus »
      Les mauvaises expériences passées sont trop nombreuses pour que les gens n’hésitent pas, et même s’ils semblent faire plus d’efforts aujourd’hui, il faudra du temps pour restaurer leur réputation sur le marché PC
    • Est-ce qu’il est correctement pris en charge sous Linux ?
  • Le communiqué de presse sur les appareils réels est ici
    https://nvidianews.nvidia.com/news/nvidia-microsoft-windows-...
    J’ai été surpris que si peu de gens soulignent que Microsoft, et surtout NVIDIA, sortent essentiellement des appareils qui entrent en conflit avec les modèles d’IA cloud facturés à l’usage
    Si l’on regarde les autres annonces et signaux, comme un meilleur BYOK hors ligne pour Copilot et l’idée d’un futur avec IA illimitée, les deux entreprises semblent avoir compris qu’une IA uniquement dans le cloud n’est ni durable, ni intrinsèquement à leur avantage
    Malgré tout, leur volonté d’affaiblir OpenAI avec ce type de produit saute aux yeux

    • Lors du MS BUILD de la semaine dernière, unmetered intelligence était probablement l’expression la plus répétée
      Microsoft pousse très fortement vers l’IA locale
    • Peut-être, mais il se peut aussi qu’ils parient simplement sur les deux tableaux
  • Je ne sais pas si les LLM locaux seront largement adoptés à moins que les prix n’augmentent vraiment
    Utiliser des petits modèles hébergés moins chers comme Sonnet ou Kimi a du sens, et ces appareils ne pourront probablement pas faire tourner des modèles du niveau de Kimi, qui est pourtant à peu près le minimum pour des tâches d’agent qui ne soient pas de simples gadgets
    Dépenser 5 000 $ pour éviter un abonnement à 20 $, à moins d’un besoin de sécurité très spécifique, ça ne semble pas très logique

    • À l’inverse, je parierais plutôt sur la possibilité que la Chine continue d’augmenter sa production de DRAM, fasse s’effondrer les prix, et entraîne avec elle le marché actions américain qui repose sur cette rareté
    • Je pense aussi qu’on n’a pas encore vraiment vu quel impact l’IA générative peut avoir sur les nouveaux produits et les jeux
      Tu as déjà vu Dungeon Crawler Carl ?
  • La plupart des gens ne semblent pas bien comprendre ce que ce genre de laptop peut apporter
    Avant l’IA locale, on utilisera probablement surtout de l’IA hybride
    Faire tourner de gros modèles en local est irréaliste, mais si on imagine qu’une partie d’un workflow agentique s’exécute dans le cloud et que les tâches plus petites tournent en local, cela devient une excellente combinaison
    Pour les tâches de base, on n’a pas besoin de modèles comme Opus/Code/DeepSeek/Kimi, et des modèles comme Gemma4:12b/Qwen-27b peuvent être exécutés localement avec une latence bien plus faible
    Un laptop capable de combiner un grand modèle distant avec cinq modèles locaux spécialisés par domaine, je voudrais l’utiliser tout de suite
    On peut imaginer OpenCode décider quelles tâches faire tourner localement avec un petit modèle, puis déterminer s’il existe un modèle local adapté à une tâche spécifique ou s’il faut utiliser un modèle cloud
    Mon inquiétude, c’est de savoir si ce hardware est assez puissant pour gérer des changements rapides entre modèles locaux ; probablement pas, mais j’espère me tromper

    • Vu la vitesse de progression des modèles locaux, avec la trajectoire actuelle, on pourrait voir dans les 2 ans des performances proches des modèles de frontière avec 128 Go de RAM unifiée et une quantification en 6 bits
      Même les modèles de frontière obtiennent désormais de meilleurs benchmarks avec seulement 200 000 tokens, et il reste encore beaucoup de marge pour la distillation
  • Je ne vois pas bien en quoi c’est un « monstre »
    Les 300 Go/s de bande passante mémoire sont seulement un peu au-dessus des 256 Go/s de l’AMD Strix Halo, et à même configuration de 128 Go de RAM, c’est même moins de la moitié des 614 Go/s du M5 Max 128 Go
    Comme la plupart des personnes intéressées seront sans doute des passionnés d’IA, j’insiste sur la bande passante mémoire ; en plus, c’est Windows

    • Contrairement au M5 Max, ça semble pouvoir offrir un prefill de contexte réellement exploitable
      Même des workflows à 256k tokens, qui prendraient presque deux fois plus de temps avant le premier token sur le M5, pourraient tourner de manière réaliste
    • Si Nvidia veut rendre les CPU ARM réellement pratiques sur desktop, y compris pour des usages autres que l’inférence ou l’entraînement, il lui reste énormément de travail logiciel à faire
      AMD peut tout faire tourner parce que ce sont des machines x86, Apple maintient toute la stack MacOS, mais Nvidia en est à peine à faire coïncider une seule version d’Ubuntu par génération de Jetson, ce qui est franchement embarrassant
      Ils devraient affecter leurs agents dont ils parlent sans arrêt au vrai travail de support du système d’exploitation
  • Je suis vraiment curieux de savoir en quoi c’est différent de quelque chose comme l’AMD Ryzen AI Max, déjà disponible et compatible avec 128 Go de mémoire unifiée

    • C’est probablement lié au support de CUDA ou à des éléments spécifiques à NVIDIA
  • Je ne sais pas qui, en 2026, s’obstine encore à parler de « Windows PC »
    C’est juste un ordinateur personnel, qui peut généralement faire tourner plusieurs systèmes d’exploitation sans problème
    L’expression « Windows PC » donne l’impression soit que Microsoft vous paie, soit que vous parlez de technologie comme quelqu’un qui envoie un document Word avec des images collées dedans
    Inutile d’attacher de force le plaisir d’un appareil indépendant du système d’exploitation à un OS médiocre

    • Évidemment, on parle du marché des entreprises
      Il est probablement susceptible d’acheter plus de PC que tous les autres marchés réunis
      Même pour un usage personnel, ceux qui font un dual boot entre Windows et un autre système d’exploitation sont une toute petite minorité
      « Windows PC » est une façon assez raisonnable de distinguer « ce qu’Apple fabrique » de « ce que fabriquent les autres », et le marché des PC non fabriqués par Apple mais non livrés avec Windows par défaut est vraiment minuscule
      Honnêtement, avoir une attitude aussi agressive sur ce sujet paraît étrange
    • C’est probablement une façon de préciser qu’il ne s’agit pas de Mac
      Le mot PC est ambigu : il peut désigner tous les ordinateurs personnels au sens originel, ou la lignée IBM PC par opposition au Mac
      Il suffit de penser à la pub « I'm a Mac, I'm a PC »
      Si on dit simplement PC, aujourd’hui les gens hésitent réellement sur le sens, et « IBM PC » fait daté, tandis que « IBM PC clone » est encore pire
      Du coup, « Windows PC » est un nom assez correct, et « Non-Mac PC » sonne mal
      Pas besoin d’en parler de façon insultante
    • Ce n’est même pas un « Windows PC » au sens traditionnel
      Si Windows est encore utilisé en entreprise et sur certains PC de bureau domestiques, notamment pour le jeu, c’est à cause de la compatibilité matérielle et logicielle
      On l’utilise parce qu’on développe des programmes Windows pour le travail, et aussi parce qu’on utilise des pilotes qui n’existent pas encore sur Win-for-ARM
      Donc, pour la plupart des gens, « Windows PC » signifie encore un PC Windows x64
      Si la compatibilité Windows-Arm64 n’est pas suffisante, le risque pour Microsoft est que, puisqu’il faudra de toute façon de nouveaux logiciels et du nouveau matériel, les gens pourraient aussi abandonner Windows lui-même
    • J’espère que ceux qui veulent faire tourner autre chose que Windows sur un appareil Nvidia ont désormais retenu la leçon
      Même si un Hackintosh Nvidia maudit serait franchement hilarant
      Pour l’utilisateur moyen, les systèmes d’exploitation pour ordinateur se résument à Windows, Apple et ChromeOS ; Nvidia n’ira pas vers ChromeOS, et Apple déteste Nvidia, donc le seul OS normal qui soit commercialisable reste Windows
      Le marketing précise bien que ces appareils ne sont pas des Chromebook bon marché qui ont ruiné l’expérience desktop de beaucoup de gens
      Qualcomm avait promis le support de Linux puis a échoué, et ceux qui ont été échaudés par cette promesse n’auront probablement pas envie de racheter ce matériel
      Promettre un Windows PC réduit aussi les raisons de se plaindre que Linux, FreeBSD ou SerenityOS ne démarrent pas, et vu l’échec de Qualcomm, Nvidia semble probablement faire le bon choix
    • Le fait que Nvidia pousse fortement pour Windows ARM semble être une information pertinente