L’APU chiplet d’AMD : aperçu de Strix Halo

(chipsandcheese.com)

1 points par GN⁺ 2025-10-20 | 1 commentaires | Partager sur WhatsApp

Strix Halo est l’APU chiplet destinée au marché client la plus importante qu’AMD ait présentée, conçue pour traiter de manière unifiée des tâches CPU et GPU haute performance.
Dotée de 16 cœurs Zen 5 et de 40 unités de calcul iGPU RDNA 3.5, elle offre des performances proches d’un CPU de bureau et d’un GPU externe de milieu de gamme.
L’adoption d’un bus mémoire LPDDR5X-8000 et d’une Infinity Cache de 32 Mo permet d’obtenir une bande passante élevée avec une faible latence.
Les performances iGPU dépassent celles des APU mobiles existantes, et dans certains environnements peuvent même rivaliser avec des GPU externes intermédiaires.
Les performances ML (machine learning) attendent le support ROCm, laissant entrevoir une bonne extensibilité et un potentiel d’évolution futur.

Introduction et aperçu du produit

Strix Halo est le premier APU chiplet grand public annoncé par AMD au CES 2025.
Bien que ce soit un processeur mobile, il vise des performances de niveau desktop avec une plage TDP de 55 W à 120 W, tout en offrant de hautes performances sans graphique externe dédiée.
Zen 5 à 16 cœurs (dual 8-core CCD) avec un FPU 512b identique à celui des produits desktop.
Il prend en charge un fréquence de boost max de 5,1 GHz (600 MHz de moins que le Ryzen 9 9950X desktop).
L’iGPU principale de type RDNA 3.5 : 40 unités de calcul, 32 Mo d’Infinity Cache, fréquence de boost de 2,9 GHz → performance de calcul au niveau RX 7600 XT~RX 7700.
Bus mémoire LPDDR5X-8000 256b (jusqu’à 256 Go/s, partagé par tous les composants ; légèrement inférieur au 288 Go/s du RX 7600 XT, mais largement supérieur aux APU précédentes) intégré.

Environnement de test et appareils

Les performances en conditions réelles ont été mesurées avec Asus ROG Flow Z13 (2025) et HP ZBook Ultra G1a 14".
Le ROG Flow Z13 est utilisé pour des tests orientés gaming, tandis que le ZBook Ultra G1a sert aux micro-benchmarks.

Sous-système mémoire côté CPU

Latence mémoire : Strix Point (~128 ns) contre Strix Halo (~123 ns), quasiment sans différence.
Le CPU n’a pas d’accès direct au cache Infinity Cache de 32 Mo situé dans le die IO, comme confirmé officiellement dans une interview.
Le CPU desktop (9950X) affiche une latence de 75 à 80 ns, nettement plus faible que sur mobile.
Bande passante mémoire : en opération pure lecture-modification-addition sur 16 cœurs, plus de 175 Go/s sont atteints, avec une lecture pouvant monter à 124 Go/s.
- La bande passante d’un CCD unique est de 64 Go/s (lecture) et 43 Go/s (écriture), pour un total réel d’environ 103 Go/s.
- Comme sur desktop, le lien CCD–IO die fonctionne à 2000 MHz, avec 32 octets par cycle.

Performances CPU

Le CPU Strix Halo atteint la même performance en calcul entier que le flagship desktop précédent (7950X), malgré une baisse de fréquence de 11,7 %.
La performance en virgule flottante est proche du flagship actuel (9950X), avec des inversions dans certains sous-tests.
Sur les sous-tests Integer/FP de SPEC CPU 2017, Strix Halo est proche du 9950X, voire le dépasse sur certains points, même si la latence plus élevée du bus LPDDR5X provoque quelques écarts.

Structure mémoire côté GPU

La bande passante mémoire de l’iGPU Strix Halo est de loin la plus élevée parmi tous les SoC mobiles.
Toutefois, elle reste 50 % inférieure à celle du RTX 5070 Mobile.
Les performances de l’Infinity Cache (MALL) sont 40 % supérieures au L2 du 5070M, avec une capacité 33 % plus grande. Son cache L2 de 4 Mo offre une bande passante de 2,5 To/s.
La latence du cache L2 de Strix Halo est inférieure à celle du 5070M, tandis que la latence de la MALL 32 Mo est similaire à celle du L2 du 5070M.
La latence mémoire globale est 35 % plus faible que celle du 5070M.

Débit de calcul GPU (Throughput)

Débit en virgule flottante : environ 2,5 fois celui de Strix Point, proche ou supérieur au 5070M.
- Sur les résultats FP16, le 5070M reste légèrement en dessous des attentes par rapport à Strix Halo (probable particularité de benchmark).
Débit en calcul entier : le 5070M est plus élevé que le Radeon 8060S.

Performances GPU et gaming

En tant qu’iGPU, Strix Halo surclasse largement les iGPU Intel/AMD existantes et présente une compétitivité proche de celle d’un GPU externe.
Dans le test du jeu à delta important (Cyberpunk 2077) :
- en mode batterie : la Radeon 8060S obtient 7,5 % de meilleure performance 1080p que le 5070M à conditions égales.
- en mode secteur : en 1080p, la Radeon 8060S devance de 2,5 %, et en 1440p le 5070M prend une avance de 8,3 %.
- selon les réglages et les conditions de puissance, les deux restent compétitifs, avec une iGPU offrant en pratique des performances équivalentes à celles d’un GPU externe.
En Fluid X3D et sur les charges de travail de calcul, la Radeon 8060S dépasse totalement les iGPU Intel/AMD existantes.

Conclusion

Strix Halo vise un SoC intégré CPU-GPU hautes performances et délivre d’excellentes performances dans des environnements d’usage variés.
Il peut concurrencer les CPU desktop Zen 5 et les GPU externes de milieu de gamme, en couvrant à la fois mobile et desktop.
Il conserve l’efficacité et l’intégration (les avantages d’une iGPU) tout en gardant des performances élevées.
Il ne surpasse pas les GPU externes haut de gamme dédiés, mais offre la meilleure flexibilité et performance dans les appareils compacts et intégrés.
Les performances ML nécessitent une analyse ultérieure, en raison du retard du support ROCm. Un potentiel d’extensibilité et de mémoire à bus large, à la manière d’Apple Max/Ultra, est également évoqué.
Le design réussi de Strix Halo devrait servir de fondation à l’expansion future de la gamme APU haute performance d’AMD.

1 commentaires

GN⁺ 2025-10-20

Avis Hacker News

J’aimerais vraiment essayer un mini PC équipé de ce produit, mais en Europe c’est extrêmement cher, voire tout simplement impossible à acheter, et commander directement depuis la Chine me rend prudent à cause du SAV, ROCm 7 fonctionne déjà sur la plupart des distributions Linux, donc ça me semblerait vraiment excellent comme station de travail ou comme serveur d’inférence à la maison pour des LLM, Ollama et d’autres services
- J’ai trouvé un produit expédié depuis l’Allemagne à un prix relativement abordable, à titre de référence : BOSGAME M5 AI Mini Desktop
- Je me demande si tu as regardé le Corsair AI Workstation 300 Desktop PC, selon le modèle choisi on est entre 2 000 et 2 700 euros, et une fois la TVA prise en compte, ça donne à peu près la même impression que les prix en dollars américains (1 700 à 2 300 USD) Corsair AI Workstations
- J’ai commandé la version framework desktop 395 128Gb pour un peu moins de 1 900 euros, et avec les options supplémentaires ainsi que les frais de livraison j’ai payé un peu plus de 2 000 euros, mais je n’ai pas eu l’impression que le prix était excessif
- Je comprends que la principale raison du prix élevé est la mémoire à haute bande passante (même si, comparée à un vrai GPU haut de gamme, la bande passante mémoire n’est pas si élevée)
- ROCm a beaucoup progressé, mais comme j’ai aussi rencontré quelques problèmes sur un desktop RX9070XT, je recommanderais pour l’instant des solutions Nvidia ou Apple pour le travail lié à l’IA, même si je pense qu’AMD va bientôt rattraper son retard, et le meilleur système IA en rapport qualité-prix reste encore un desktop assemblé soi-même avec deux RTX 3090 (à condition bien sûr d’avoir une carte mère compatible double carte), puis de le faire tourner dans un placard
Comparé aux dGPU mobiles, ainsi qu’au produit DGX Spark (enfin devenu réalité), ce marché donne encore l’impression d’un segment inachevé avec du potentiel, je ne sais pas pourquoi le DGX Spark a été autant retardé, mais cela a donné à AMD l’occasion de prendre des parts de marché en premier, l’avantage des GPU discrets (y compris mobiles) c’est la bande passante mémoire, et leurs inconvénients sont la forte consommation électrique et la capacité mémoire, je laisse CUDA de côté ici, même si c’est évidemment un facteur énorme, si on ajoute de petits desktops DGX Spark, il devient possible d’utiliser le RDMA entre plusieurs machines grâce à des ports réseau doubles à 200Gb, ce qui pourrait aboutir à une meilleure utilisation que le même nombre de Strix Halo 395, mais dans un vrai cadre de production j’utiliserais probablement plutôt un serveur GPU ou une station de travail Threadripper avec GPU que quatre DGX Spark, et le fait que le DGX Spark n’entre pas dans un laptop joue aussi en faveur de Strix Halo, au final je pense que c’est un nouveau marché de niche et je suis curieux de voir quelle forme il prendra au fil des prochaines générations
- AMD devrait sortir Medusa Halo à la génération suivante, avec un bus LPDDR6 de 384 bits, ce qui pourrait permettre d’atteindre deux fois plus de mémoire et 1,7 fois plus de bande passante que Strix Halo, Strix Halo semble réussir comme plateforme d’inférence, donc j’ai l’impression que ce segment de marché va continuer à croître
- À noter que ce n’est pas du double 200Gb mais soit du simple 200Gb, soit du double 100Gb
- « dGPU » signifie généralement GPU discret, donc je me demande si tu ne voulais pas plutôt dire « iGPU » (graphismes intégrés), les produits Strix Halo sont aussi commercialisés pour le jeu, mais leurs performances réelles ne semblent pas totalement en phase avec ce positionnement, le CPU est presque trop rapide alors que les performances de l’iGPU sont relativement limitées, mais les performances en multiplication de matrices (matmul) ont l’air clairement solides
- L’objectif principal du DGX Spark semble être le développement et les tests locaux de modèles d’IA, Strix Halo est un iGPU basé sur amd64, donc il peut aussi servir à des usages PC traditionnels tout en étant suffisamment bon comme appareil cible pour l’IA locale, à mon avis Strix Halo ressemble au début de la fin de l’ère des GPU discrets dans les laptops, Nvidia semble aussi en avoir pris conscience et chercherait à créer une solution iGPU en coopération avec Intel
Ce qui est regrettable, c’est que plus de six mois après le lancement il n’y ait encore que deux laptops réellement disponibles, et parmi eux le seul modèle hautes performances est le Z13, il y a aussi le produit Framework, mais il est impossible à acheter dans beaucoup de pays, et j’ai l’impression que ça reste une clientèle assez limitée, j’aime vraiment beaucoup le Z13 mais c’est clairement aussi un produit de niche, je ne sais pas s’il y a des problèmes de fabrication des puces ni si Apple absorbe toute la capacité de production
- Le prix américain du HP ZBook Ultra était extrêmement élevé, mais en Europe il m’a semblé raisonnable, comparable à un laptop classique, ce que je regrette c’est de l’avoir commandé le jour de sa sortie sans pouvoir attendre la version 128GB, mais pour l’autonomie et les performances, je n’ai encore rien vu qui rivalise sur des charges lourdes parmi tout ce que j’ai pu utiliser, et au-delà des laptops, des entreprises comme Beelink fabriquent aussi des NUC à un prix raisonnable, je suis d’accord pour dire que la pénurie a rendu l’évaluation de l’opportunité plus difficile
- Le HP ZBook Ultra G1a peut être configuré avec jusqu’à 128GB de RAM, donc c’est une bonne option
- Beelink, GMKtec, Minisforum et Corsair lancent aussi des produits
- Dans la plupart des pays européens, on ne peut pas acheter le Z13 avec plus de 32GB de RAM, et une garantie de 2 à 3 ans n’est généralement pas proposée non plus, ce qui est décevant, au final ça me frustre au point d’envisager l’achat d’un Framework 13 pourtant moins puissant en RAM/CPU/GPU
High Yield a mis en ligne une vidéo qui analyse en profondeur la puce 395 au niveau silicium, cela peut valoir le détour : High Yield - 395 Chip Deep Dive
Je me demande s’il est possible d’utiliser un TDP plus élevé sur le framework desktop, ce desktop semble avoir un refroidissement bien meilleur que les laptops équipés de la même puce, donc il pourrait y avoir une vraie différence de performances
- On peut le régler à 140W en continu et à 160W en burst (environ 10 secondes)
- Je n’ai pas mesuré la consommation électrique, mais j’utilise la carte mère Framework dans un boîtier ITX plus grand afin d’améliorer le refroidissement, mon PC principal en 7950X3D et l’unité Strix ont le même nombre de cœurs/threads, et les mesures de performances montrent très peu d’écart, donc c’est impressionnant de voir qu’un laptop peut offrir des performances de calcul dignes d’un desktop
J’ai lu quelque part que l’une des principales raisons pour lesquelles cet APU n’est pas aussi efficace énergétiquement qu’un produit Apple viendrait d’un choix fait pour partager l’architecture avec Epyc, et que cela aurait impliqué un compromis défavorable à l’efficacité à faible consommation, je me demande si quelqu’un peut confirmer cela
- Dans le test de Hardware Canucks, le M4 Pro (3nm de deuxième génération) et le 395+ (4nm) ont été comparés à 50W, et les performances sont assez proches, ce qui peut s’expliquer par la différence de procédé entre le 3nm et le 4nm test YouTube
- L’APU est bien, mais il ne pourra jamais égaler la bande passante mémoire d’un m3 ultra, en revanche il est bien moins cher, je réfléchis à remplacer un vieux desktop, et il est important pour moi de pouvoir emprunter temporairement un GPU externe (A6000, etc.) au travail sans passer trop de temps à tout configurer
J’ai acheté un framework desktop pour le tester, et c’est une machine vraiment impressionnante malgré sa petite taille, j’espère que ce type de produit attirera à l’avenir davantage d’attention et de participation de la part des communautés d’ingénieurs, un écosystème bien pris en charge par vulkan ou rocm serait bénéfique pour tout le monde
J’ai une question connexe : si on assemble un CPU Zen 5 desktop + RX 7600 XT + mémoire, est-ce qu’on pourrait obtenir à moindre coût quelque chose de comparable à Strix Halo ou à Apple Silicon, où la mémoire système et le GPU partagent la bande passante mémoire, et faire tourner localement de gros LLM à un prix raisonnable ? En plus, sauf erreur de ma part, j’ai l’impression que la mémoire partagée n’existe que sur les APU et pas avec un GPU discret, est-ce bien cela ?
- Avec un GPU physiquement séparé, la mémoire n’est pas « unifiée », dans ce cas l’accès passe par le bus PCIe, ce qui crée un goulot d’étranglement important en bande passante, le maximum du PCIe 5.0 x16 est de 64GB/s, et tous les GPU ne le prennent même pas en charge
Je me demande si les performances graphiques sont d’un niveau capable de rivaliser avec une 5070M, si le prix et la consommation restent raisonnables, ça paraît très attractif
- La consommation est d’environ 75W, on peut l’augmenter manuellement, mais quoi qu’il arrive cela reste sous les 100W (c’est une information obtenue en me renseignant sur le Z13), la puce elle-même peut encaisser davantage, et ASUS est plutôt du genre à autoriser plus de 130W sur ses laptops, donc cette limite à 75W m’a un peu surpris
Je me demande comment les performances GPU se comparent à celles des GPU intégrés aux Mac de série M

L’APU chiplet d’AMD : aperçu de Strix Halo

Introduction et aperçu du produit

Environnement de test et appareils

Sous-système mémoire côté CPU

Performances CPU

Structure mémoire côté GPU

Débit de calcul GPU (Throughput)

Performances GPU et gaming

Conclusion

À lire aussi

1 commentaires

Avis Hacker News