L’avenir de l’IA chez AMD passe par le rack-scale « Helios »

(morethanmoore.substack.com)

1 points par GN⁺ 2025-06-16 | 1 commentaires | Partager sur WhatsApp

Le GPU AMD Instinct MI355X double les performances de calcul IA, embarque davantage de mémoire HBM et améliore de 40 % l’efficacité en tokens/$ face à NVIDIA
ROCm 7 met l’accent sur les gains de performances et le support Day-0, tout en visant l’élargissement de l’écosystème IA
La solution intégrée rack-scale fournit une infrastructure IA clé en main combinant CPU, GPU et réseau d’AMD
Feuille de route : en 2026, AMD prévoit une architecture de nouvelle génération avec performances multipliées par 4, HBM4, scalabilité renforcée, ainsi que la présentation du rack Helios
Efficacité énergétique : objectif d’un gain d’efficacité de 20x à l’échelle du rack d’ici 2030, grâce à des innovations conjointes côté matériel et logiciel

Résumé complet

La stratégie d’AMD portée par la croissance de l’IA rack-scale

Avec la hausse rapide de la demande en matériel IA, tous les grands acteurs des semi-conducteurs se concentrent sur l’accélération de leur croissance et de leurs parts de marché
AMD est entré rapidement sur le marché des GPU pour serveurs IA avec l’Instinct MI300X, et a récemment enregistré des revenus à forte marge après le lancement de sa première architecture entièrement focalisée sur les fonctions clés et les performances
Fort de cet élan, l’entreprise a dévoilé une stratégie visant à étendre continuellement sa présence dans le domaine du matériel de nouvelle génération pour serveurs IA

Détails des innovations des accélérateurs Instinct MI350

Un bond majeur des performances de calcul IA

La série Instinct MI350 repose sur la nouvelle architecture CDNA4 et offre plus du double du débit des opérations matricielles (calcul tensoriel) par cycle par rapport au MI300X
Le support complet des calculs en virgule flottante basse précision comme FP6 et FP4 réduit la charge d’inférence tout en augmentant fortement le volume global de calcul
Pour les calculs en FP6, elle est conçue pour traiter les charges à une vitesse deux fois supérieure à celle du Blackwell de NVIDIA, avec l’ambition de prendre l’avantage en performances
La configuration mémoire progresse aussi nettement avec 288 Go de HBM3E (8 piles) et une bande passante de 8 To/s
La puce géante, forte de 185 milliards de transistors et gravée en TSMC N3P, s’appuie sur une structure d’empilement de dies efficace

Une gamme de SKU variée et une tendance au très hautes performances / très forte consommation

La gamme se divise entre le MI355X à refroidissement liquide (2,4 GHz, 5 PFLOPS) et le MI350X à refroidissement par air (2,2 GHz, 4,6 PFLOPS)
La consommation électrique augmente par rapport au MI300X : 1000 W pour la version à air et 1400 W pour la version à liquide
Avec 128 MI355X dans un rack, les seuls GPU peuvent consommer environ 180 kW
AMD met aussi en avant la compétitivité tarifaire, avec un avantage attendu de plus de 40 % en tokens/$ face à NVIDIA (30 % moins cher)
Les premières livraisons aux partenaires commencent au troisième trimestre 2024, même si le rythme réel de déploiement reste variable

La stratégie logicielle de ROCm 7

Support Day-0 et maximisation des performances

ROCm 7 apporte des améliorations tous azimuts pour la prise en charge de CDNA4 et des accélérateurs de la série MI350, ainsi que sur les performances et la gestion entreprise
Le support Day-0 des principaux frameworks comme Pytorch est un objectif clé
Au troisième trimestre 2024, ROCm 7 commencera aussi à prendre en charge Pytorch natif sous Windows, ONNX Runtime et les GPU RDNA 4/3
Grâce aux seules optimisations logicielles, les performances de la génération MI300X peuvent être jusqu’à 3,8 fois supérieures sous ROCm 7 par rapport à ROCm 6
Avec ROCm Enterprise AI, AMD fournit des outils spécialisés pour les entreprises, notamment pour l’exploitation de grands clusters IA et le fine-tuning de modèles

Un écosystème réseau désormais complet : Pollara 400 AI NIC

Après le rachat de Pensando, AMD lance sa première carte réseau, la Pollara 400 AI NIC (Ethernet 400G, gravure TSMC N4)
Grâce à sa scalabilité et à ses fonctions de NIC P4 programmable, elle prend en charge la construction de racks de supercalculateurs basés sur AMD
Il s’agit de la première AI NIC compatible avec l’Ultra Ethernet Consortium, posant les bases du réseau extensible de nouvelle génération

Feuille de route vers l’avenir rack-scale autour du MI400

MI400 (2026) : objectif de doubler les performances IA en FP8, avec 432 Go de HBM4 et une bande passante de 19,6 To/s, sur une architecture de nouvelle génération (CDNA Next)
Avec Ultra Accelerator Link, l’extension scale-up passe de 8 GPU à 1024 GPU pour prendre en charge le parallélisme à très grande échelle
Système rack Helios : combinaison de MI400, EPYC Venice (6e génération) et Vulcano (NIC 800G), avec un accent mis sur l’avantage mémoire/réseau face à la prochaine plateforme de NVIDIA, Vera Rubin
Via une feuille de route ouverte, AMD présente chaque année ses projets d’innovation architecturale clés pour les CPU, GPU et systèmes en rack
AMD vise une efficacité énergétique rack-scale multipliée par 20 d’ici 2030, et une efficacité globale multipliée par 100, en poursuivant l’optimisation du matériel et du logiciel

Conclusion

Avec les séries Instinct MI350 à Helios, CDNA 4 à Next et des solutions rack-scale clé en main, AMD cherche à s’assurer un leadership différencié sur le marché des infrastructures IA
À court terme, les nouveaux MI350, l’architecture CDNA4 et le logiciel ROCm 7 devraient constituer les principaux moteurs de cette stratégie
Face à NVIDIA sur le marché des serveurs IA, AMD déploie une stratégie visant à renforcer simultanément performances, coûts, scalabilité et efficacité

1 commentaires

GN⁺ 2025-06-16

Avis Hacker News

J’ai vraiment l’impression que l’usage de ROCm varie énormément selon les cas, et que le support des cartes graphiques grand public est franchement difficile à juger fiable. J’aurais aimé que ce soit une alternative viable, mais depuis que je suis passé à CUDA, j’ai nettement réduit les problèmes pénibles et le temps perdu, en particulier à cause du temps excessif nécessaire pour exécuter les benchmarks MiOpen dans HIP.
Depuis que CUDA a commencé à s’imposer vers 2010 pour le calcul scientifique, j’ai l’impression qu’on entend toujours la même histoire. Je ne comprends pas qu’AMD n’ait toujours pas réussi à reproduire cette réussite 15 ans plus tard, alors que NVIDIA a déjà complètement verrouillé l’écosystème logiciel, ce qui donne maintenant le sentiment qu’il est trop tard.
J’aimerais que quelqu’un qui connaît bien les logiciels fournis par AMD en fasse une vue d’ensemble. Je me demande quel SDK permet réellement de faire de l’inférence ou de l’entraînement de réseaux de neurones. Il y a tellement d’options que j’ai essayé de m’y retrouver pendant un moment, mais j’ai l’impression que tout part dans trop de directions à la fois, donc il est difficile de comprendre où cela va.
J’ai le sentiment que Jensen maîtrise vraiment la stack CUDA et le segment des workstations. AMD doit dépasser cette stack elle-même, pas seulement augmenter la taille du matériel. La plupart des gens ne vont pas passer beaucoup de temps à étudier une stack complexe pour une architecture qui représente même pas 10 % de parts de marché.
En réalité, presque aucun développeur n’appelle directement l’API CUDA, donc le point clé pour AMD serait surtout de bien connecter le backend ROCm à XLA et PyTorch. Rien qu’avec ça, ils pourraient déjà pénétrer une part importante du marché. Et comme Nvidia il y a une dizaine d’années, AMD devrait carrément distribuer gratuitement des GPU aux universités et autres institutions pour développer un écosystème de chercheurs. Aujourd’hui, faute de ressources de calcul IA, les universités utilisent souvent du matériel vieux de deux ou trois générations. Si AMD fournissait des GPU stables à moitié prix, les doctorants entreraient naturellement dans l’écosystème AMD, et cette expérience pourrait ensuite se répercuter dans l’industrie.
Quand les gens parlent de CUDA, ils pensent souvent seulement au C, alors qu’en réalité le C++ est la base depuis CUDA 3.0, avec aussi un support Fortran. NVIDIA soutient activement plusieurs langages pour qu’ils puissent exploiter l’environnement PTX. En 2025, l’entreprise prévoit aussi d’introduire un Python CUDA JIT DSL. Même sans matériel récent, le SDK CUDA fonctionne sur des ordinateurs portables d’entrée de gamme, ce qui permet d’apprendre progressivement avec un matériel modeste.
J’ai entendu beaucoup de retours négatifs sur le support logiciel du matériel d’entrée de gamme. Je pense qu’un point d’entrée accessible est extrêmement important. À l’inverse, mettre l’accent sur le matériel pour datacenter permettrait de réduire le portefeuille à une gamme plus resserrée tout en assurant une accessibilité plus large via les fournisseurs cloud. J’aimerais voir apparaître un équipement pour débutants comme une workstation MI350-A, mais en réalité cela semble difficilement réalisable.
À ce stade, j’ai l’impression qu’AMD a en interne de sérieux problèmes qui expliquent la faiblesse de sa stack logicielle. Ils ont eu largement le temps d’écouter les retours clients et de renforcer les équipes sur plusieurs sujets, mais dans les faits il y a eu peu de progrès. Les incitations financières sont pourtant importantes, et malgré cela le changement reste limité. Je suis d’accord pour dire que la PDG Lisa Su est une excellente dirigeante, mais comme elle vient plutôt du matériel, je me demande si elle n’est pas moins encline à pousser l’innovation logicielle.
Selon certains, le support de ROCm n’est pas encore un enjeu majeur pour l’utilisateur IA moyen. Grâce à l’API Vulkan incluse dans les pilotes AMD standard depuis environ 10 ans, des applications LLM en un clic comme llama.cpp ou LM Studio fonctionnent aussi. C’est plus lent, mais cela reste utilisable en pratique.
À propos de la future concurrence entre NVIDIA et AMD, remarque un peu humoristique du type : « Quand cet avenir lointain deviendra réalité, nous vous recontacterons en premier. »
Brève question : « C’est Bob Page qui pilote ça ? »
Quelqu’un dit que la réplique de jeu "Atropos log, abandoning Helios" lui provoque une réaction émotionnelle, et qu’elle lui revient en tête chaque fois qu’une actualité liée sort.
Espoir qu’AMD réussisse à produire une puce d’entraînement supérieure au H100.
L’année dernière, j’ai eu quelques problèmes en entraînant sur MI300X, et même quand ça tournait, c’était 20 à 30 % plus lent qu’un H100. Plus récemment, en testant un entraînement DPO avec OpenRLHF (basé sur transformers/DeepSpeed) sur les dernières versions de ROCm et PyTorch, j’ai observé que sur des jobs courts de 12 heures, les performances par heure de GPU étaient presque comparables à celles du H200. Avant, j’avais testé sur un nœud à 8 GPU ; maintenant, j’expérimente sur un seul GPU MI300X, donc la comparaison n’est pas totalement équitable. L’entraînement multi-GPU ou multi-nœuds reste encore une inconnue, donc cela reste un seul échantillon.
Quand on pense que le H100 est déjà sorti depuis trois ans, l’écart paraît encore plus grand. Cela montre à quel point le rythme de l’innovation se ressent.
Je comprends qu’on parle ici d’une puce relativement plus lente. En réalité, la série MI300 a déjà dépassé le H100, et la MI400 pourrait arriver bientôt.
Ce qui compte vraiment, c’est de savoir quelle part des annonces de « Software++: ROCm 7 Released » est réellement utilisable sur un ordinateur portable grand public, comme avec CUDA.
Franchement, cet article a été pénible à lire, même si l’auteur a visiblement mis assez d’énergie pour mériter qu’on lui offre un mi355. AMD ne donne absolument aucune raison d’inspirer autant de confiance que ce que laisse entendre l’article. Le fait qu’ils n’aient pas pris en charge la gamme RDNA4 dans ROCm pendant des mois a été particulièrement décevant. AMD a eu une attitude irresponsable en expliquant que le support pourrait arriver seulement au « day 120 » du calendrier. Et dans les benchmarks, ils n’indiquent pas clairement d’où viennent réellement les performances ; je soupçonne fortement qu’ils comparent des performances FP4 à du FP8 ou du FP16, puis présentent cela de manière trompeuse.
Il reste choquant et déroutant qu’AMD investisse si peu dans ROCm pour le grand public et que le support arrive aussi tard, mais ils ont récemment annoncé officiellement vouloir proposer un support day 1 aussi sur les cartes client. Bien sûr, le plus important sera de tenir la promesse. On a l’impression qu’AMD a enfin compris à quel point il est crucial de fournir un support solide de ROCm sur toute la stack. C’est presque étrange pour une entreprise qui fabrique à la fois Ryzen et Radeon. Je trouve d’ailleurs que Radeon s’en sort plutôt bien cette année, ce qui rend le retard du support officiel de RDNA4 dans ROCm encore plus regrettable. Malgré cela, la première impression côté grand public avec la 9070 XT et FSR4 n’était pas mauvaise, et contrairement à l’époque où AMD semblait éviter ce genre d’opportunités, on voit enfin un mouvement, ce qui me rend très prudemment optimiste. J’espère simplement que ces promesses tiendront dans le temps. Lien associé
AMD semble peu intéressé par le support du calcul sur les GPU grand public, alors qu’ils fournissent une stack logicielle et un support plutôt bons sur les GPU pour datacenter.
En réponse au commentaire d’origine disant qu’« on accorde trop de confiance à AMD dans cet article », quelqu’un demande si cela vise bien Ryan Smith, connu notamment via AnandTech. Lien
AMD est désormais une entreprise de marketing, selon cette opinion, avec l’idée qu’elle se bat sur le marché davantage par le marketing que par l’excellence technique.

L’avenir de l’IA chez AMD passe par le rack-scale « Helios »

Résumé complet

La stratégie d’AMD portée par la croissance de l’IA rack-scale

Détails des innovations des accélérateurs Instinct MI350

Un bond majeur des performances de calcul IA

Une gamme de SKU variée et une tendance au très hautes performances / très forte consommation

La stratégie logicielle de ROCm 7

Support Day-0 et maximisation des performances

Un écosystème réseau désormais complet : Pollara 400 AI NIC

Feuille de route vers l’avenir rack-scale autour du MI400

Conclusion

À lire aussi

1 commentaires

Avis Hacker News