Le retour des CPU : perspectives du marché des CPU pour datacenters en 2026

(newsletter.semianalysis.com)

5 points par GN⁺ 2026-02-10 | Aucun commentaire pour le moment. | Partager sur WhatsApp

La demande explosive en apprentissage par renforcement et en inférence IA agentique remet fortement les CPU au premier plan dans les datacenters, entraînant un changement dans les flux d’investissement jusque-là centrés sur les GPU
Intel a connu fin 2025 une hausse inattendue de la demande en CPU serveurs et augmente ses investissements dans les capacités de fonderie pour 2026, tout en réaffectant des wafers PC vers les serveurs
AMD Venice introduit, sur la base du procédé N2 de TSMC, des CCD Zen6c à 256 cœurs et un réseau mesh, ce qui devrait creuser davantage l’écart face à Intel en performances comme en efficacité énergétique
Le camp des CPU ARM propriétaires des hyperscalers — NVIDIA, AWS, Microsoft, Google, ARM et d’autres — entre dans une phase d’expansion réelle, accélérant le démantèlement de la domination exclusive du x86
Avec notamment le Huawei Kunpeng 950, 2026 s’annonce comme une année de concurrence sans précédent, où tous les fournisseurs lanceront simultanément une nouvelle génération de CPU

Évolution et transformation du rôle des CPU dans les datacenters

De l’ère du PC à l’époque de la bulle Internet
- Dans les années 1990, les gains de performance des processeurs PC ont créé une demande de remplacement des mainframes et stations de travail, permettant à Intel d’entrer sur le marché des serveurs avec le Pentium Pro (1995) puis la marque Xeon (1998)
- Dans les années 2000, avec l’essor du Web 2.0, du e-commerce et des smartphones, les CPU pour datacenters sont devenus un marché de plusieurs milliards de dollars
- Après la fin de la course aux GHz, des innovations de conception ont émergé autour des CPU multicœurs, de l’intégration du contrôleur mémoire (AMD) et de la connexion directe en PCIe
- Le SMT (Simultaneous Multi-Threading) a été adopté à la fois par Intel et AMD, améliorant les performances en traitement parallèle
L’ère des hyperscalers, de la virtualisation et du cloud computing
- À la fin des années 2000, l’arrivée du cloud public avec AWS et d’autres a fait passer les modèles de CapEx à l’OpEx, jusqu’à l’émergence du serverless computing (AWS Lambda, etc.)
- La virtualisation matérielle du CPU est devenue le socle central du cloud, avec des hyperviseurs (comme VMware ESXi) capables d’exécuter plusieurs VM indépendantes sur un seul CPU
- En 2018, les vulnérabilités Spectre et Meltdown ont mis en avant la nécessité de désactiver le SMT, avec des pertes de performances pouvant atteindre 30 %
  - Des attaques exploitant les mécanismes de prédiction de branchement ont concrétisé les menaces pesant sur la sécurité du cloud
L’ère de l’intégration entre GPU IA et CPU
- Au cours des cinq années précédant le lancement de ChatGPT (novembre 2022), Intel a expédié plus de 100 millions de CPU Xeon Scalable
- L’entraînement et l’inférence des modèles d’IA sont exécutés de façon 100 à 1000 fois plus efficace sur les grandes unités vectorielles des GPU et les Tensor Core
- Face aux GPU, les CPU affichent des performances extrêmement faibles en calcul matriciel et ont été rétrogradés à un rôle de support, l’alimentation électrique étant prioritairement allouée aux GPU
- L’usage des CPU s’est scindé en deux catégories :
  - Nœud de tête : alimentation et gestion des données pour les GPU, avec besoin de fortes performances par cœur, de grands caches et de mémoire à large bande passante (NVIDIA Grace, Venice+MI455X, Graviton5+Trainium3, etc.)
  - Consolidation des sockets cloud-native : afin de maximiser l’efficacité énergétique, remplacement de serveurs anciens par des CPU récents avec un ratio supérieur à 10:1 ; des millions de serveurs Intel Cascade Lake achetés pendant le COVID sont en cours de retrait
L’ère de l’apprentissage par renforcement et des agents
- Dans le datacenter "Fairwater" de Microsoft pour OpenAI, un bâtiment CPU et stockage de 48 MW soutient un cluster GPU de 295 MW, avec des dizaines de milliers de CPU mobilisés pour traiter des volumes de données de l’ordre du pétaoctet
- Dans les environnements d’apprentissage par renforcement (RL), de grandes quantités de CPU sont nécessaires pour compiler du code, le valider, l’interpréter et utiliser des outils afin d’exécuter les actions générées par les modèles et de calculer les récompenses
  - Les performances des GPU progressant bien plus vite que celles des CPU, le ratio de puissance CPU/GPU pourrait à l’avenir dépasser 1:6 avec la génération Rubin
- Les modèles RAG et les modèles agentiques multiplient à grande échelle les appels d’API, recherches Internet et requêtes de base de données, provoquant une forte hausse de la demande en CPU généralistes
- AWS et Azure déploient massivement leurs propres CPU Graviton et Cobalt, ainsi que des serveurs x86
- Les laboratoires de frontier AI se heurtent à une pénurie de CPU pour l’entraînement RL et entrent en concurrence directe avec les fournisseurs cloud pour sécuriser des serveurs x86 généralistes
- Intel, confronté à un épuisement inattendu des stocks, envisage une hausse des prix des Xeon et cherche à obtenir des outils de production supplémentaires
- AMD augmente ses capacités d’approvisionnement et prévoit une croissance « à deux chiffres élevée » du TAM des CPU serveurs en 2026

Histoire des interconnexions des CPU multicœurs

Premières conceptions en crossbar et leurs limites
- Sur les premiers dual-core (Intel Pentium D, AMD Athlon 64 X2, 2005), connexion via FSB (Front Side Bus) ou liaison NoC on-die
- L’approche crossbar voit le nombre de connexions exploser avec l’augmentation du nombre de cœurs (2 cœurs = 1, 4 cœurs = 6, 6 cœurs = 15, 8 cœurs = 28), ce qui fait de 4 cœurs la limite pratique
- AMD Istanbul (2009) est passé à un crossbar 6-way, Magny-Cours (2010) à 12 cœurs en dual-die, et Interlagos à 16 cœurs
Architecture en ring bus d’Intel
- Intel a introduit le ring bus avec Nehalem-EX (2010), intégrant 8 cœurs sur un seul die avec IMC et liens QPI
- Deux anneaux contra-rotatifs réduisent la latence et la congestion, mais la latence d’accès cœur à cœur reste non uniforme (NUMA)
- Ivy Bridge-EX : 15 cœurs atteints avec une disposition en 3 colonnes et 5 rangées, et 3 « anneaux virtuels »
- Haswell/Broadwell : double ring bus indépendant pour 18 à 24 cœurs, mais plus de 100 ns de latence lorsqu’il faut traverser un buffered switch entre les anneaux
  - La configuration « Cluster on Die » permet de séparer 2 nœuds NUMA
Architecture mesh d’Intel
- En 2016, Xeon Phi "Knights Landing" a introduit l’interconnexion mesh, étendue en 2017 aux Xeon Scalable Skylake-X (28 cœurs)
- Avec une topologie en grille 2D, les cœurs, slices de cache L3, PCIe IO, IMC et accélérateurs sont placés à chaque arrêt du mesh
- Le mode Sub-NUMA Clustering (SNC) divise le mesh en quadrants pour réduire la latence moyenne
- Skylake-X : mesh 6x6, avec un clock mesh à 2,4 GHz atteignant une latence moyenne comparable à celle du double ring de Broadwell
- Ice Lake : le passage au 10 nm a permis d’étendre à un mesh 8x7 jusqu’à 40 cœurs (limite de reticle)
Mesh distribué via EMIB
- Sapphire Rapids : sur le nœud Intel 7, un die monolithique unique était limité à 34 cœurs, l’ajout des moteurs AMX augmentant la surface par cœur
  - Avec le packaging avancé EMIB, Intel a relié 4 dies pour atteindre 60 cœurs avec une configuration mesh 8x12 (environ 1 600 mm² de silicium)
  - La latence moyenne cœur à cœur s’est dégradée de 47 ns (Skylake) à 59 ns
  - Le cache L2 privé de chaque cœur a été porté à 2 Mo (L2 total > L3 : 120 Mo vs 112,5 Mo)
  - Le produit a accumulé plusieurs années de retard jusqu’au stepping E5, prévu initialement pour 2021 mais lancé début 2023
- Emerald Rapids (fin 2023) : réduction à 2 dies, 66 cœurs (64 actifs au maximum) et cache L3 presque triplé à 320 Mo
Conception distribuée hétérogène de Xeon 6
- Avec la plateforme Xeon 6 en 2024, les E/S et le calcul ont été séparés de façon hétérogène : die I/O en Intel 7, dies de calcul en Intel 3
- Possibilité de mixer les configurations P-core Granite Rapids et E-core Sierra Forest
- Granite Rapids-AP Xeon 6900P : mesh 10x19 sur 3 dies de calcul, 132 cœurs (128 actifs au maximum)
- Sierra Forest : des clusters de 4 E-cores forment un mesh 8x6 pour 144 cœurs, mais l’adoption reste limitée car les hyperscalers ont déjà choisi AMD ou leurs propres CPU ARM
  - Le Sierra Forest-AP dual-die à 288 cœurs (Xeon 6900E) n’a été produit qu’en petits volumes
Les limites de Clearwater Forest
- Xeon 6+ Clearwater Forest-AP : grâce au bonding hybride Foveros Direct d’Intel, des core dies en 18A sont empilés sur un base die en Intel 3, pour atteindre 288 cœurs
- Une conception complexe composée de 12 dies de calcul de 24 cœurs
- Des problèmes d’intégration avec Foveros Direct ont entraîné un report de H2 2025 à H1 2026
- La bande passante d’accès au L3 et au mesh du base die par cluster de 4 cœurs n’est que de 35 Go/s
- Malgré deux ans d’écart, le gain de performances à nombre de cœurs équivalent n’est que de 17 % par rapport à Sierra Forest
- Lors de la publication de ses résultats du T4 2025, Intel n’a presque pas mentionné Clearwater Forest, qui pourrait davantage servir de véhicule d’apprentissage du rendement de Foveros Direct que de produit de production à haut volume

Architecture d’interconnexion AMD Zen

EPYC Naples (2017)
- Première étape du retour d’AMD dans le datacenter, avec 32 cœurs obtenus via un MCM composé de 4 dies « Zeppelin »
- Chaque die intègre 2 CCX (4 cœurs + 8 Mo de L3, reliés par crossbar), avec des liens Infinity Fabric on Package (IFOP) entre les dies
- L’absence de cache L3 unifié et la multiplicité des domaines NUMA (intra-CCX, inter-CCX, die-to-die, inter-socket) entraînent de fortes variations de latence
- Intel s’en était moqué en parlant de « 4 dies desktop collés ensemble », mais il s’agissait d’une conception efficace en ressources pour une petite équipe
Évolution des générations à partir d’EPYC Rome (2019)
- Rome : 8 CCD à 8 cœurs disposés autour d’un die I/O central ; les CCD sont gravés en TSMC N7, le die I/O en 12 nm chez GlobalFoundries
  - Toutes les communications entre CCX passent par des liens GMI via le die I/O, ce qui revient fonctionnellement à 16 nœuds NUMA à 4 cœurs
- Milan (2021) : la taille des CCX passe à 8 cœurs avec adoption d’un ring bus, tout en réutilisant le die I/O de Rome
- Genoa (2022) : 12 CCD ; Turin (2024) : jusqu’à 16 CCD pour 128 cœurs (EPYC 9755), avec passage à DDR5 et PCIe 5
- Avantage clé de la conception en chiplets : un seul tape-out de CCD permet de composer toute la gamme de nombres de cœurs, avec de meilleurs rendements et une mise sur le marché plus rapide grâce aux petits dies
- Avec les variantes compactes de cœurs Zen 4c/Zen 5c, AMD propose aussi sur la même plateforme Bergamo (Zen 4c) et Turin-Dense (192 cœurs)

Architecture Intel Diamond Rapids

Structure dans laquelle 4 dies CBB (Core Building Block) entourent 2 dies IMH (I/O and Memory Hub), avec une apparence extérieure similaire à celle de la conception d’AMD
À l’intérieur de chaque CBB, 32 modules dual-core (DCM) sont fabriqués en Intel 18A-P et liés par bonding hybride à un base die en Intel 3-PT
- Les 2 cœurs partagent un cache L2 commun, dans une conception rappelant la génération Dunnington de 2008
Total de 256 cœurs, mais les SKU mainstream devraient n’en activer qu’un maximum de 192
Die IMH : 16 canaux DDR5, PCIe 6 (avec prise en charge de CXL 3), accélérateurs de datapath Intel (QAT, DLB, IAA, DSA)
Au lieu d’EMIB, l’interconnexion entre dies passe par des traces longue distance sur le substrat du package, chaque CBB pouvant accéder directement aux deux IMH
- En revanche, la latence cross-CBB devrait se dégrader fortement
Le problème de la suppression du SMT
- Après Spectre/Meltdown, Intel a supprimé le SMT sur ses P-cores, avec une première application côté client sur Lion Cove en 2024
- Dans le datacenter, le débit maximal est crucial, ce qui constitue une faiblesse majeure pour Diamond Rapids
- Par rapport à l’actuel Granite Rapids et ses 128 cœurs / 256 threads, Diamond Rapids avec 192 cœurs / 192 threads ne devrait offrir qu’un gain de performances d’environ 40 %
- La plateforme Diamond Rapids-SP mainstream à 8 canaux a été totalement annulée, laissant ce segment sans nouvelle génération au moins jusqu’en 2028
  - Avec pour conséquence de manquer le marché des CPU généralistes nécessaires aux outils IA et au stockage de contexte

Architecture AMD Venice

AMD adopte pour la première fois une technologie de packaging avancé, reliant les CCD et le die d’E/S via des liens courts à haute vitesse
En raison d’un shoreline supplémentaire pour les liens CCD, le hub central d’E/S est scindé en 2 dies, créant un domaine NUMA supplémentaire entre les deux côtés de la puce
16 canaux mémoire (contre 12 sur Genoa), avec mémoire multiplexée MRDIMM-12800 pour une bande passante de 1,64 To/s (2,67 fois celle de Turin)
Introduction d’un réseau mesh à l’intérieur du CCD : 32 cœurs Zen6c disposés en grille 4x8, sur procédé N2 de TSMC
8 CCD pour un total de 256 cœurs, soit une hausse d’un tiers par rapport aux 192 cœurs de Turin-Dense
Attribution intégrale de 4 Mo de cache L3 par cœur au Zen6c (contre la moitié sur le précédent Zen5c), soit 128 Mo de cache par CCD
SKU « -F » à faible nombre de cœurs et haute fréquence pour les nœuds de tête IA : utilisation de CCD Zen6 à 12 cœurs destinés au desktop/mobile, jusqu’à 96 cœurs
Stabilisation de l’alimentation avec 8 petits IPD (Integrated Passive Device) près des interfaces DDR5 à côté du die d’E/S
Performances de Venice et nouvelles instructions
- Le modèle phare à 256 cœurs offre plus de 1,7x de performances par watt au SPECrate®2017_int_base face au Turin 192 cœurs
- Forte hausse de l’IPC (Instructions per Clock) de la microarchitecture Zen 6
- Nouvelles instructions pour types de données IA : AVX512_FP16, AVX_VVNI_INT8, AVX512_BMM (multiplication de matrices binaires)
  - BMM : stockage de matrices binaires 16x16 dans les registres FPU, avec accumulation BMM via opérations OR et XOR
  - Efficace pour les simulations Verilog notamment, mais adoption probablement limitée pour les LLM en raison d’une précision insuffisante
- Alors que l’AMD Turin 96 cœurs est au niveau de l’Intel Granite Rapids 128 cœurs, l’écart de performances entre Venice et Diamond Rapids devrait encore se creuser
- Tandis qu’Intel a annulé son processeur 8 canaux, AMD introduit la nouvelle plateforme Venice SP8 à 8 canaux, successeur de l’EPYC 8004 Siena, avec jusqu’à 128 cœurs Zen 6c
  - AMD devrait ainsi gagner des parts sur le marché entreprise, bastion traditionnel d’Intel

NVIDIA Grace et Vera

CPU Grace
- Conçu pour les nœuds de tête GPU et l’extension de la mémoire GPU, avec NVLink-C2C (900 Go/s bidirectionnels) permettant au GPU d’accéder à la mémoire CPU à pleine bande passante
- Adoption de mémoire LPDDR5X de classe mobile, bus mémoire 512 bits, 500 Go/s de bande passante et jusqu’à 480 Go par CPU
- 72 cœurs ARM Neoverse V2 actifs (sur 76), mesh 6x7, 117 Mo de cache L3
- Bande passante bisectionnelle du mesh de 3,2 To/s, spécialisée dans les flux de données
- Goulot d’étranglement microarchitectural : chute brutale des performances quand le Branch Target Buffer dépasse 24 régions, et flush complet du buffer de 64 Mo au-delà de 32 régions
  - Baisse de 50 % sur du code HPC non optimisé, avec impact aussi sur les charges IA des GB200/GB300
CPU Vera (2026)
- Pour la plateforme Rubin, avec bande passante C2C de 1,8 To/s, soit le double
- 1,5 To de mémoire et 1,2 To/s de bande passante via 8 modules SOCAMM de 128 bits
- 91 cœurs (88 actifs) sur un mesh 7x13, cache L3 de 162 Mo
- Packaging CoWoS-R : 1 die de calcul 3 nm de taille réticule + 4 dies mémoire LPDDR5 + 1 die d’E/S PCIe6/CXL3 (6 dies au total)
- Abandon des limitations de performance des cœurs Neoverse au profit d’un retour au cœur maison Olympus
  - 88 cœurs/176 threads (prise en charge du SMT), ARMv9.2, FPU avec 6 ports 128b (contre 4 sur Neoverse V2)
  - Prise en charge des opérations ARM SVE2 FP8, 2 Mo de cache L2 par cœur (2x Grace)
  - Performances doublées au global

AWS Graviton5

AWS est le premier hyperscaler à avoir déployé avec succès son propre CPU dans le cloud, grâce au rachat d’Annapurna Labs et à l’usage d’ARM Neoverse CSS
Graviton2 : fortes remises pendant le boom COVID pour encourager la transition vers ARM, 64 cœurs Neoverse N1
Graviton3 : passage au Neoverse V1 avec performances en virgule flottante doublées par cœur, conception à chiplets EMIB, adoption de DDR5 et PCIe5 un an avant AMD et Intel
Graviton4 : 96 cœurs Neoverse V2, mémoire 12 canaux, 96 lignes PCIe5, prise en charge du double socket
Graviton5 (preview en décembre 2025) : 192 cœurs Neoverse V3, TSMC 3 nm, 172 milliards de transistors
- 192 Mo de cache L3 (forte hausse face aux 36 Mo de Graviton4), DDR5-8800 à 12 canaux
- Passage au PCIe6, mais réduction des lignes de 96 à 64 (optimisation des coûts pour les lignes inutilisées)
- Mesh 8x12, 2 cœurs partageant un arrêt de mesh, partitionnement sur plusieurs dies de calcul et adoption d’une nouvelle stratégie de packaging
AWS utilise en interne des milliers de CPU Graviton pour le CI/CD et l’EDA afin de concevoir les prochaines générations de Graviton, Trainium et Nitro (dogfooding interne)
L’accélérateur Trainium3 utilise les CPU Graviton comme nœuds de tête (1 CPU : 4 XPU)

Microsoft Cobalt 200

Successeur du Cobalt 100 (2023, 128 cœurs Neoverse N2), lancement prévu fin 2025
132 cœurs Neoverse V3, 3 Mo de cache L2 par cœur, 2 dies de calcul TSMC 3 nm
Mesh 8x8 par die, 72 cœurs imprimés / 66 actifs, 192 Mo de cache L3, 6 canaux DDR5, 64 lignes PCIe6
50 % de performances en plus par rapport au Cobalt 100
Dédié aux services Azure de calcul CPU généraliste, pas utilisé pour les nœuds de tête IA (Microsoft Maia 200 adopte Intel Granite Rapids)

Google Axion C4A, N4A

Annoncé en 2024 et disponible en GA en 2025, entrée de Google sur le marché des CPU custom silicon GCP
Axion C4A : jusqu’à 72 cœurs Neoverse V2, DDR5 à 8 canaux, PCIe5, die monolithique 5 nm (81 cœurs imprimés, mesh 9x9)
- Probablement une nouvelle conception de die en 3 nm pour une instance bare metal 96 cœurs previewée fin 2025
Axion N4A : pour le scale-out rentable, 64 cœurs Neoverse N3, conception full custom TSMC 3 nm
Google convertit son infrastructure interne (Gmail, YouTube, Google Play, etc.) vers ARM et prévoit à terme de déployer Axion aussi comme nœud de tête des clusters TPU

Ampere Computing et le rachat par SoftBank

Pionnier du silicium ARM marchand, en partenariat avec Oracle, Ampere a défié le monopole x86 avec Altra (80 cœurs) et Altra Max (128 cœurs)
- Cœurs Neoverse N1, interconnexion mesh maison (clusters de 4 cœurs), DDR4 à 8 canaux, 128 lignes PCIe4, die unique TSMC 7 nm
AmpereOne : procédé 5 nm, 192 cœurs, séparation du chiplet d’E/S (DDR5, PCIe), conception MCM sans besoin d’interposeur
- Cœurs ARM custom (optimisés pour la densité) + 2 Mo de cache L2 (atténuation du problème des noisy neighbors)
- Réutilisation des chiplets prévue pour des variantes comme l’AmpereOne-M à 12 canaux ou l’AmpereOne-MX à 256 cœurs en 3 nm
En 2025, SoftBank l’a racheté pour 6,5 milliards de dollars, afin de sécuriser des équipes de conception CPU pour l’initiative Stargate
Causes de l’échec d’Ampere :
- La génération Altra est arrivée trop tôt, à une époque où les logiciels nativement ARM n’étaient pas encore mûrs
- AmpereOne n’a été disponible qu’au second semestre 2024 après de nombreux retards, alors que les CPU ARM des hyperscalers montaient déjà en puissance et qu’AMD proposait 192 cœurs avec des performances par cœur 3 à 4 fois supérieures
- Montants d’achats de CPU Ampere par Oracle : 48 millions de dollars en FY2023 → 3 millions de dollars en FY2024 → 3,7 millions de dollars en FY2025, en chute libre

ARM Phoenix

ARM se lance en 2026 dans l’activité de conception et de vente de CPU complets pour datacenters, entrant ainsi en concurrence directe avec ses clients licenciés historiques de Neoverse CSS
À ce jour, plus d’un milliard de cœurs Neoverse ont été déployés dans des CPU et DPU pour datacenters, avec 21 licences CSS accordées à 12 entreprises
Les revenus de royalties du datacenter ont plus que doublé sur un an, et CSS devrait représenter plus de 50 % des revenus de royalties dans les prochaines années
Phoenix : 128 cœurs Neoverse V3, mesh ARM CMN, deux dies half-reticle en 3 nm de TSMC
- 12 canaux DDR5 (8400MT/s), 96 lignes PCIe Gen 6, TDP configurable de 250 à 350 W
- Le premier client est Meta ; OpenAI (coentreprise Stargate/SoftBank) et Cloudflare figurent aussi parmi les clients potentiels
- Le Accelerator Enablement Kit basé sur PCIe6 permet de relier des XPU à une mémoire partagée cohérente

Huawei Kunpeng

Kunpeng 920 et 920B
- Générations initiales (Hi1610 à Kunpeng 916) : ARM Cortex A57→A72, TSMC 16 nm
- Kunpeng 920 (2019) : 64 cœurs custom TaiShan V110, 2 dies de calcul TSMC 7 nm, packaging CoWoS-S (première utilisation de CoWoS-S sur un CPU)
  - 8 canaux DDR4, 40 lignes PCIe4, double 100GbE intégré
  - Les sanctions américaines ont coupé l’approvisionnement de TSMC, et le Kunpeng 930 de nouvelle génération n’a pas été lancé
- Kunpeng 920B (2024) : cœur TaiShan V120 avec prise en charge du SMT, 10 clusters de 4 cœurs par die (soit 80 cœurs / 160 threads au total)
  - 8 canaux DDR5, die d’I/O séparé, refonte sur le procédé SMIC N+2 (après cinq ans d’interruption)
Kunpeng 950 (2026)
- Nouveau LinxiCore à 192 cœurs (avec SMT), avec également une version réduite à 96 cœurs
- Configuration en rack TaiShan 950 SuperPoD : 16 serveurs bi-socket, jusqu’à 48 To de DDR5 (12 canaux présumés)
- Performances en base de données OLTP 2,9 fois supérieures à celles du Kunpeng 920B (sur la base de GaussDB Multi-Write)
- Adoption prévue dans le secteur financier chinois ainsi que sur les serveurs de base de données Oracle Exadata
- Fabrication estimée sur le procédé SMIC N+3
Kunpeng 960 (feuille de route 2028)
- Version hautes performances : 96 cœurs / 192 threads, pour nœuds de tête IA et bases de données, avec des performances par cœur en hausse de plus de 50 %
- Version haute densité : plus de 256 cœurs pour la virtualisation et le cloud
- Perspective d’une part de marché significative sur le marché chinois des CPU pour hyperscalers

Le retour des CPU : perspectives du marché des CPU pour datacenters en 2026

Évolution et transformation du rôle des CPU dans les datacenters

De l’ère du PC à l’époque de la bulle Internet

L’ère des hyperscalers, de la virtualisation et du cloud computing

L’ère de l’intégration entre GPU IA et CPU

L’ère de l’apprentissage par renforcement et des agents

Histoire des interconnexions des CPU multicœurs

Premières conceptions en crossbar et leurs limites

Architecture en ring bus d’Intel

Architecture mesh d’Intel

Mesh distribué via EMIB

Conception distribuée hétérogène de Xeon 6

Les limites de Clearwater Forest

Architecture d’interconnexion AMD Zen

EPYC Naples (2017)

Évolution des générations à partir d’EPYC Rome (2019)

Architecture Intel Diamond Rapids

Le problème de la suppression du SMT

Architecture AMD Venice

Performances de Venice et nouvelles instructions

NVIDIA Grace et Vera

CPU Grace

CPU Vera (2026)

AWS Graviton5

Microsoft Cobalt 200

Google Axion C4A, N4A

Ampere Computing et le rachat par SoftBank

ARM Phoenix

Huawei Kunpeng

Kunpeng 920 et 920B

Kunpeng 950 (2026)

Kunpeng 960 (feuille de route 2028)

À lire aussi

Aucun commentaire pour le moment.