La pénurie de RAM pourrait durer plusieurs années

(theverge.com)

2 points par GN⁺ 11 일 전 | 1 commentaires | Partager sur WhatsApp

En raison d’une pénurie mondiale d’approvisionnement en DRAM standard, il est prévu que seulement 60 % de la demande puisse être satisfaite jusqu’à la fin 2027, et certains estiment que la situation pourrait durer jusqu’en 2030
De grands fabricants comme Samsung, SK Hynix et Micron avancent sur des extensions de nouvelles fabs, mais la plupart ne pourront pas entrer en service avant 2027~2028
Pour répondre à la demande, une hausse annuelle de 12 % de la production serait nécessaire, mais l’augmentation réellement planifiée n’est que de 7,5 %
Les nouvelles installations se concentrent sur la production de HBM (mémoire à large bande passante) pour les centres de données IA, ce qui limite leur capacité à résorber la pénurie de DRAM standard destinée à l’électronique grand public
Des hausses de prix dans de nombreux appareils électroniques grand public sont déjà en cours, notamment pour les smartphones, ordinateurs portables, casques VR et consoles portables gaming

État de la pénurie mondiale de mémoire

Selon un article de Nikkei Asia, malgré l’augmentation de la production de DRAM, les fabricants estiment ne pouvoir couvrir que 60 % de la demande d’ici fin 2027
Le président de SK Group a indiqué que la pénurie de puces et de wafers pourrait se poursuivre jusqu’en 2030

Plans d’augmentation de production des principaux fabricants

Les trois plus grands fabricants de mémoire au monde, Samsung, SK Hynix et Micron, sont tous engagés dans la construction de nouvelles fabs
Cependant, la plupart de ces nouvelles installations ne commenceront à fonctionner qu’en 2027, voire au plus tôt en 2028
En 2026, le seul cas concret d’augmentation de production est la fab de Cheongju de SK, entrée en service en février

Hausse de production et écart avec la demande

Selon Counterpoint Research, pour suivre la demande, il faudrait une augmentation annuelle de 12 % de la production sur la période 2026~2027
Le taux de croissance réellement prévu se limite à 7,5 %
Cet écart entre les besoins et les plans constitue un facteur clé de prolongation de la pénurie

Priorité au HBM et impact sur le marché grand public

Les nouvelles fabs se concentrent sur la production de HBM (High-Bandwidth Memory) utilisée dans les centres de données IA
Les fabricants donnent déjà la priorité au HBM par rapport à la DRAM standard, de sorte que l’amélioration de l’approvisionnement en mémoire pour les ordinateurs et smartphones reste incertaine
Par conséquent, on ne sait pas encore si la pression sur les prix dans l’électronique grand public pourra être allégée

Exemples de hausses de prix dans l’électronique grand public

La pénurie de RAM a déjà entraîné des hausses de prix dans plusieurs catégories de produits
- Hausse des prix des smartphones et tablettes Galaxy de Samsung
- Hausse des prix des Surface de Microsoft
- Hausse de 100 dollars des casques VR Quest 3 / 3S de Meta
- Hausse des prix de la console portable gaming à double écran d’AYN

1 commentaires

GN⁺ 11 일 전

Réactions sur Hacker News

Si je comprends bien, Samsung, SK Hynix et Micron n’ont pas la capacité de production nécessaire pour absorber la demande, et le volume disponible est en plus affecté en priorité au HBM plutôt qu’à la DRAM. Comme le HBM ne semble pas facile à rediriger vers l’électronique grand public, le marché grand public risque de souffrir pendant encore 3 à 4 ans. En plus, OpenAI est lui aussi coincé par une pression sur le capital, et avec les interrogations croissantes sur son burn rate et ses revenus, il n’est pas exclu qu’ils n’honorent même pas jusqu’au bout les engagements d’achat qui ont déclenché cette panique sur la RAM, ce qui pourrait au final laisser les fabricants de mémoire avec du stock sur les bras
- Ça me rappelle qu’en 2019, la Radeon VII, un GPU grand public à 700 dollars, offrait déjà 1 To/s de bande passante avec de la HBM2. À l’époque, AMD en mettait même sur des gammes intermédiaires, donc j’ai du mal à comprendre pourquoi une techno autrefois vendue au grand public est maintenant présentée comme une sorte de technologie divine, chère et exceptionnelle
- Les facteurs régionaux comptent aussi beaucoup. Aux Pays-Bas, à cause de la saturation du réseau électrique, des entreprises qui prévoyaient de construire des data centers se font dire que même après avoir payé les frais et obtenu une garantie de raccordement, elles n’auront probablement pas accès au réseau avant 2030. Ça veut dire qu’une certaine capacité mémoire est réservée en supposant l’existence de data centers qui ne sont même pas encore construits, donc si les projets sont retardés ou annulés, l’équilibre entre offre et demande pourrait devenir encore plus bizarre
- J’ai l’impression que ce sont toujours les fabricants de mémoire qui se retrouvent à porter le risque à la fin. J’ai l’impression d’avoir déjà vu au moins trois fois le même scénario
- Cela dit, cette fois les fabricants de mémoire n’ont pas autant augmenté leurs capacités qu’avant, et je pense justement que c’était un choix pour éviter l’explosion des stocks
- À mon avis, à mesure que les différentes promesses de Sam Altman sur les infrastructures s’effondrent, on va basculer plus vite que prévu vers une surabondance de l’offre. J’ai aussi l’impression que le secteur financier commence à comprendre qu’on ne peut pas construire ce type d’infrastructure aussi vite, et que même quand on y arrive, ce n’est pas forcément rentable
La question que je n’arrive toujours pas à résoudre est la suivante : si l’IA rend la création de logiciels plus facile, les prix vont baisser, mais alors que les dépenses liées à l’IA dépassent déjà de plusieurs fois les dépenses mondiales totales en logiciel, je ne vois pas comment les éditeurs de logiciels pourraient absorber ces coûts. Du coup, la demande actuelle de RAM me semble être bâtie sur du sable, avec au bout du compte une forte probabilité de surcapacité massive
- Je n’irais pas jusque-là. Les LLM sont déjà suffisamment utiles comme outils pour qu’ils ne disparaissent pas, et la vraie question, au fond, c’est la scalabilité et la baisse des coûts. Même si les petites entreprises ne peuvent pas suivre, les grandes peuvent déjà trouver des usages dans la défense, l’exploitation des ressources, la finance, etc. À l’inverse, si les coûts baissent suffisamment, les petites équipes s’y mettront aussi, mais si ça devient trop bon marché, il pourrait même y avoir le paradoxe où des utilisateurs potentiels se mettraient à fabriquer eux-mêmes leurs logiciels chez eux
- Certains calculs d’analystes vont jusqu’à dire qu’il faudrait un nouvel abonnement à 35 dollars par mois pour chaque utilisateur d’iPhone, ou 180 dollars par mois pour chaque abonné Netflix. Même si le prix de Claude Max a augmenté, je reste sceptique sur le fait que tous les utilisateurs de Netflix accepteraient de payer ce genre de montant. Voir aussi l’article de Tom's Hardware
- Tout le monde semble parier sur le paradoxe de Jevons. En gros, ils espèrent que l’IA deviendra le prochain semi-conducteur, le prochain Internet
- Moi, je vois ça comme un cheval de Troie. J’ai l’impression que la stratégie consiste au fond à faire en sorte que le monde s’habitue à cette technologie et devienne dépendant d’elle
Je pense que cette situation va durer longtemps. Après le Covid, les fabricants ont appris que restreindre l’offre maximisait les profits, et quand on voit que les prix de l’automobile ne redescendent pas facilement comme avant, la RAM pourrait suivre la même trajectoire. Contrairement à de gros clients comme Apple ou OpenAI, les consommateurs ordinaires ne peuvent pas signer de grands contrats, donc au final, j’ai l’impression que c’est nous qui allons absorber la hausse des coûts
Je suis un peu optimiste. J’espère que tout ça servira d’avertissement aux développeurs qui utilisent la RAM sans compter, et qu’à l’avenir les applications seront forcément plus sobres en mémoire
- Ça me fait un peu penser à la fin de l’ère des moteurs V8 après le choc pétrolier de 1973
- Cela dit, comme la demande actuelle est surtout tirée par l’inférence, je ne suis pas sûr que les développeurs aient réellement une motivation urgente à optimiser
- J’aimerais bien que Electron perde enfin de son influence. J’ai toujours eu du mal à comprendre pourquoi on affiche un contenu simple avec une appli de plus de 300 Mo alors que 500 Ko suffiraient
  - Franchement, ça ressemble à un scénario de rêve
- Pour utiliser moins de RAM, il faut souvent utiliser davantage de CPU, donc même si le prix de la RAM augmente, ce n’est pas forcément un bon compromis au global
J’ai été surpris que l’article ne mentionne pas du tout TurboQuant de Google. Il a été publié il y a 26 jours, il est présenté comme permettant de réduire par 6 la mémoire du cache KV et d’augmenter la vitesse jusqu’à 8 fois, et il a déjà été intégré à llama.cpp, ce qui aide à faire tourner des contextes plus grands sans devoir se rabattre sur des modèles plus petits. Cela dit, moi aussi je reste sceptique sur le fait que ça atténue vraiment le problème de RAM. La demande risque très bien d’augmenter plus vite que les gains d’efficacité. Voir aussi ce post HN
- Dans le secteur, beaucoup considèrent aussi que TurboQuant n’est pas vraiment l’état de l’art SOTA. Il existe de meilleures méthodes de quantification KV selon le bitrate, comme SpectralQuant par exemple. Et puis ce facteur 6 est mesuré par rapport à un cache KV en BF16, donc la comparaison change si on la fait face à des approches déjà existantes en 8 bits ou 4 bits
- Il y a aussi un point à corriger. Le papier TurboQuant est en réalité paru sur arXiv en avril 2025, et l’implémentation actuelle offre plutôt un taux de compression d’environ 3,8x à 4,9x, les chiffres du haut impliquant une dégradation assez marquée sur GSM8K. Côté vitesse, on est aussi plutôt à 80 à 100 % de la référence, donc il n’y a pas forcément de gain, voire ça peut être plus lent. On peut suivre l’état de l’implémentation dans cette PR vLLM et la discussion dans cette issue vLLM. Personnellement, je teste DMS, qui me paraît plus prometteur et compatible avec d’autres quantifications. Les gains plus importants viendront plutôt des améliorations d’architecture des modèles comme le SWA global hybride de Gemma 4, MLA, DSA, les linear layers, les SSM, etc. Mais même là, à cause du paradoxe de Jevons, je ne pense pas que cela réduira la demande totale de mémoire. Rien que mon outil de code utilise entre 10 et 15 milliards de tokens de cache par mois, et avec la montée des agents et l’usage par les développeurs grand public, j’ai l’impression qu’il n’y a pratiquement pas de plafond au nombre de tokens que les gens voudront consommer
- Je pense malgré tout que le travail autour des modèles locaux visant le faible RAM et faible VRAM aide clairement. Par exemple, Gemma 4 32B peut tourner sur des laptops du commerce, et j’ai l’impression qu’il atteint, voire dépasse, un niveau d’intelligence comparable à gpt-4o, qui était SOTA il y a deux ans. D’ici à ce que les prix de la mémoire se stabilisent, j’espère qu’on pourra peut-être faire tourner localement quelque chose au niveau d’Opus 4.7. Les grands modèles ont certes plus de connaissances embarquées, mais si l’appel à des outils comme la recherche web est bien géré, cela peut largement compenser
- À mon avis, l’effet net n’ira pas dans le sens de faire la même chose avec moins de mémoire, mais plutôt vers faire plus de choses avec la même quantité de mémoire. Les entreprises vont augmenter la fenêtre de contexte des produits qu’elles proposent, et les gens l’utiliseront telle quelle. C’est une vision un peu amère, mais ça ressemble à la réalité de l’avenir de la mémoire
- Cela dit, le coût de garder le modèle chargé en mémoire reste élevé. Par exemple, avec 16 Go de RAM, je ne pense pas que le gain ressenti soit si important
J’ai aussi été surpris que l’article ne parle pas des nouveaux fabricants chinois de mémoire. Ça m’a fait penser à cet article
- Comme le dit aussi l’article, CXMT a environ 3 ans de retard sur Samsung, SK Hynix et Micron dans les procédés DRAM avancés, et sa ligne prévue pour le second semestre 2026 ne devrait pas avoir d’effet majeur sur l’équilibre mondial offre-demande avant 2027. Or l’article d’origine estime que la demande dépassera l’offre en 2028, donc le moment où la production chinoise rattrapera le niveau technologique actuel pourrait se situer vers 2029. À long terme, cela aidera à faire baisser les prix, mais pour l’instant, l’efficacité de production n’est pas encore suffisante pour empêcher les pénuries à court terme
J’ai récemment voulu monter un nouveau PC gaming, mais j’ai sans cesse repoussé le projet à cause du choc sur les prix et des problèmes d’approvisionnement sur les composants pris séparément. Puis je suis tombé par hasard dans un Microcenter près de chez moi sur un préassemblé pratiquement full options, avec une 5090 et une alimentation haut de gamme, à moins de 5 000 dollars, et je l’ai acheté directement. Il y a une dizaine d’années, un PC préassemblé, c’était le choix qu’on faisait seulement quand on avait vraiment beaucoup d’argent et pas même une journée de week-end à y consacrer ; aujourd’hui, ça m’a au contraire semblé être une décision évidente
- Pour moi, la règle générale reste quand même que monter soi-même reste plus avantageux. Un préassemblé inclut forcément le coût de montage, donc structurellement il peut difficilement être moins cher, et il n’est pas rare qu’il fasse des compromis sur des composants moins visibles comme la carte mère ou l’alimentation. Bien sûr, tu es peut-être tombé sur une bonne affaire, mais ce genre d’exception ne change pas le principe général
Je me demande si tout ça va pousser à utiliser des logiciels plus sobres en mémoire. Aujourd’hui, on a l’impression que même des programmes très banals consomment des centaines de Mo de RAM
- Moi aussi, en faisant du vibe-coding, j’ai clairement déjà pris comme objectif explicite de réduire l’usage mémoire
J’ai l’impression que l’ère de l’optimisation arrive enfin, et ça me réjouit
- Cela dit, je reste un peu sceptique. Les applis que j’utilise ont en général un lock-in assez fort, donc soit il n’y a pas de volonté organisationnelle d’optimiser, soit il manque tout simplement les ressources pour le faire. En pratique, l’optimisation la plus réaliste consiste pour moi à abandonner les outils lourds au profit d’outils plus légers, en espérant qu’à force, cela améliore les finances et les moyens de développement des outils légers
- Ça fait longtemps que je dis que les développeurs d’OS devraient se concentrer sur des optimisations agressives. Même sans pénurie de puces, le ralentissement de la miniaturisation des semi-conducteurs est déjà là, et les optimisations logicielles profitent à tout le matériel sans pour autant faire directement monter les ventes. De ce point de vue, Linux est moins contraint, et j’en viens même à imaginer qu’une option comme Haiku OS pourrait redevenir intéressante
À mes yeux, les fabricants de RAM restent toujours très réticents à augmenter la production. Je me demande s’ils voient en avance des signaux de demande à long terme que les investisseurs, eux, ne perçoivent pas
- Ils se sont déjà brûlé les ailes plusieurs fois. Le secteur de la DRAM a longtemps été rythmé par des cycles boom-bust : à chaque hausse de la demande, tout le monde construisait de nouvelles fabs, puis les prix s’effondraient, les investissements n’étaient jamais amortis, et les faillites suivaient. C’était déjà le cas dans les années 80, 90 et 2000, et maintenant qu’il ne reste plus que trois fabricants, j’ai l’impression qu’ils savent mieux que quiconque que la demande est fondamentalement cyclique
- L’industrie des semi-conducteurs est une industrie de boom and bust depuis plus de 50 ans. Il y a même cette image, et en 30 ans de carrière dans le secteur, j’ai moi-même connu des périodes où l’on arrivait à peine à satisfaire 30 % des commandes clients, puis deux ans plus tard des fabs tournant à 50 % de charge et perdant de l’argent. Comme une fab de dernière génération coûte 20 milliards de dollars et prend 3 à 4 ans à construire, si l’on pense que l’IA pourrait n’être qu’une bulle, le risque de se retrouver après l’effondrement de la demande avec des usines vides flambant neuves est tout simplement énorme
- Toute personne qui regarde la situation lucidement pensera sans doute la même chose. Les engagements d’achat d’OpenAI paraissent totalement irréalistes et non soutenables
- De leur point de vue, le scénario de perte n’est peut-être pas si grave. La structure du marché ressemble pratiquement à un cartel, et la RAM restera de toute façon un produit nécessaire, donc ils ont probablement calculé le couple risque/rendement le plus favorable pour eux dans cet équilibre entre prix et demande en produisant moins. Ce qui compte, ce n’est pas l’affection ou la réputation auprès des consommateurs, mais le fait que le marché a davantage besoin d’eux qu’eux n’ont besoin du marché

La pénurie de RAM pourrait durer plusieurs années

État de la pénurie mondiale de mémoire

Plans d’augmentation de production des principaux fabricants

Hausse de production et écart avec la demande

Priorité au HBM et impact sur le marché grand public

Exemples de hausses de prix dans l’électronique grand public

À lire aussi

1 commentaires

Réactions sur Hacker News