L’avenir du compute : la couronne de Nvidia vacille

(mohitdagarwal.substack.com)

2 points par GN⁺ 2025-04-24 | 3 commentaires | Partager sur WhatsApp

NVIDIA a connu une croissance rapide grâce au boom de l’IA et à son monopole sur les GPU, mais sa position à long terme est menacée par le développement de puces maison et les stratégies d’intégration verticale des géants du cloud
La demande en GPU des startups et des opérateurs cloud indépendants diminue, et la dégradation de la rentabilité des modèles économiques fortement dépendants de NVIDIA devient visible
Google, Amazon, Microsoft, Meta et d’autres réduisent rapidement leur dépendance à NVIDIA grâce à des puces sur mesure haute performance et à des systèmes intégrés verticalement
L’infrastructure distribuée et l’optimisation fondée sur l’interconnexion de clusters deviennent des éléments clés de l’entraînement de l’IA, ce qui constitue un changement structurel auquel NVIDIA a du mal à répondre
NVIDIA tente d’améliorer son matériel et ses logiciels, mais il existe un risque d’affaiblissement de sa compétitivité face aux stratégies d’intégration verticale approfondie des hyperscalers

De la domination à la crise chez NVIDIA : les bouleversements du marché du compute pour l’IA

NVIDIA a connu une croissance fulgurante grâce au boom de l’IA, à son monopole sur les GPU et à la fourniture de serveurs DGX, jusqu’à enregistrer une performance historique avec une hausse de 2 000 milliards de dollars de capitalisation boursière en 13 mois
Mais la génération H100 marque le sommet de la rentabilité, et la série B200 lancée ensuite s’accompagne d’une baisse de rentabilité et d’une hausse des coûts de fabrication
À long terme, les hyperscalers consolident la demande et renforcent leur compétitivité via le développement de puces sur mesure, ce qui ébranle la structure monopolistique de NVIDIA

Recomposition de la demande en IA et contraction du marché des startups

Plus de la moitié de la demande datacenter de NVIDIA provient des hyperscalers comme Google, Microsoft, Amazon et Meta
Le reste de la demande provenait des startups, des fonds de capital-risque et des petits acteurs du cloud, mais les achats excessifs de GPU ont réduit le ROI, et les activités de location de GPU sont déficitaires
Les petits modèles spécialisés comme BloombergGPT peinent sur le marché, tandis que les grands modèles fermés fondés sur des API se standardisent
Des clouds indépendants comme Coreweave et Lambda sont en difficulté malgré le soutien de NVIDIA, en raison d’un manque de viabilité économique, d’une baisse de rentabilité et d’un ralentissement de la demande
Les prix de location des GPU ont chuté brutalement jusqu’à 1,99 $ de l’heure, avec un ROE inférieur à 10 %, un niveau difficilement soutenable

La stratégie des hyperscalers autour des puces sur mesure

Les TPU de Google en sont déjà à la 6e génération et ont complètement remplacé NVIDIA pour des modèles comme Gemini-Ultra, DeepMind et YouTube
Les Trainium et Inferentia d’Amazon, en collaboration avec Anthropic, remplacent l’inférence et l’entraînement de grands modèles et fournissent le Neuron SDK, qui fonctionne sans CUDA
L’accélérateur Maia et le CPU Cobalt de Microsoft sont déjà utilisés pour des charges IA internes, avec un SDK basé sur Triton qui renforce la possibilité de remplacer CUDA
Meta exploite déjà des fonctions d’IA d’Instagram et de WhatsApp sur ses puces MTIA, et une partie de l’entraînement de Llama 3.1 est également réalisée sur des puces maison
Cette tendance correspond davantage à une structure de marché de l’IA centrée sur l’inférence, et l’inférence basée sur GPU pourrait à l’avenir être dépassée par des puces sur mesure, voire par des solutions fondées sur des CPU

Le basculement vers une architecture centrée sur le système et les limites de NVIDIA

Les hyperscalers privilégient l’optimisation du système dans son ensemble plutôt que les performances d’une puce isolée
Google connecte en masse de petits TPU et utilise son réseau optique propriétaire (Apollo) ainsi qu’une topologie réseau en tore pour réduire au minimum la consommation électrique et la latence
Microsoft a construit un réseau à fibre optique et des transceivers ColorZ afin de rendre possible l’entraînement multi-datacenter, obtenant une infrastructure moins coûteuse et plus performante que celle de NVIDIA
Il en résulte qu’une architecture distribuée, consistant à relier par le réseau plusieurs datacenters de taille plus modeste pour l’entraînement, s’impose comme la nouvelle norme
Pour dépasser les contraintes d’alimentation électrique et les limites d’extension des infrastructures, des tentatives de connexion de datacenters à l’échelle nationale sont en cours (par exemple : redémarrage de Three Mile Island par Microsoft, acquisition d’une centrale nucléaire par AWS, etc.)

La réponse matérielle et logicielle de NVIDIA, et ses difficultés structurelles

NVIDIA tente de réagir avec les serveurs GB200, Spectrum-X, DCGM et RAS
Son architecture réseau fondée sur Infiniband est vulnérable à très grande échelle et présente des lacunes en matière de tolérance aux pannes
Des systèmes comme Pathways de Google et Singularity de Microsoft se distinguent par leurs mécanismes propriétaires de tolérance aux pannes et par leur capacité à détecter les erreurs de mémoire GPU
BaseCommand de NVIDIA, basé sur Kubernetes, est moins performant en matière d’évolutivité et d’intégration que les solutions des hyperscalers comme Borg ou MegaScaler
En tant qu’arrivant tardif sur les systèmes de refroidissement, NVIDIA reste derrière Google sur l’efficacité énergétique, la durée de vie et l’efficacité spatiale (par exemple : PUE de Google à 1,1 contre 1,4 ou plus pour NVIDIA)

Conclusion

NVIDIA conserve certes des performances GPU très solides, mais souffre de limites structurelles face aux hyperscalers sur les plans de l’optimisation système, de l’intégration de l’infrastructure et de l’efficacité des coûts
Les hyperscalers ont déjà achevé une intégration verticale complète, de la puce à l’infrastructure en passant par le logiciel, ce qui leur donne la capacité d’un remplacement complet
Sans abandonner sa stratégie historique centrée sur le GPU au profit d’une innovation à l’échelle du système, NVIDIA risque d’avoir du mal à maintenir durablement son leadership sur le futur marché du compute pour l’IA

3 commentaires

kandk 2025-04-24

La personne qui n’a pas acheté d’actions Nvidia à cause de Google Tensor, Tesla Dojo et AMD..

kimjoin2 2025-04-24

Je me demande aussi quels sont les inconvénients des « puces personnalisées des hyperscalers ».
On a l’impression qu’elles sont décrites comme supérieures sur tous les plans.

GN⁺ 2025-04-24

Commentaires Hacker News

Certains estiment qu’il s’agit encore d’un article fondé sur l’hypothèse que, pendant que Nvidia ne ferait rien, des concurrents connaîtraient soudainement le succès et menaceraient Nvidia
- Les pessimistes sur Nvidia finiront peut-être par avoir raison un jour, mais jusqu’ici ils se sont souvent trompés
Bien que l’action de Marvell ait chuté de plus de 50 % cette année, la demande pour les GPU de Nvidia reste forte
- Cela souligne que les fonctionnalités fournies par le cloud ne peuvent pas remplacer les GPU
- Certains adhèrent à la vision de Jensen selon laquelle Nvidia deviendra une entreprise de 10 000 milliards de dollars
- La possibilité est évoquée que Nvidia lance des téléphones IA, des services concurrents de LLM, des PC IA, des voitures autonomes, des robots, etc.
- De la même manière que Warren Buffet a regretté de ne pas avoir investi dans Google et Apple, ils estiment qu’une situation similaire se produit aujourd’hui
Certains pensent que les services protégeront Nvidia
- L’entreprise possède l’écosystème avec CUDA, Infiniband, NGC, NVLink, etc., et doit l’étendre via des applications supplémentaires comme AI Foundry
- Elle peut générer des revenus lorsque le marché ralentit grâce à des conceptions sur mesure et du conseil autour des projets GPU
Certains jugent que la position stratégique de Nvidia est sous-estimée
- Nvidia n’a pas besoin de gagner éternellement la bataille du hardware et construit toute la stack IA
- C’est la seule entreprise à proposer de manière complète le hardware, le networking, le software, les modèles et les outils pour développeurs
- Nvidia construit une plateforme intégrée, qui deviendra un standard du secteur
Certains avancent qu’AMD aurait conclu un accord secret avec Nvidia et aurait volontairement créé cette situation
- Nvidia partage avec Apple une position exclusive chez TSMC
Nvidia passe d’un quasi-monopole fonctionnel à une situation où elle doit faire face à la concurrence
- Ce n’est pas idéal, mais ce n’est pas un coup fatal
Certains estiment que la génération H100 représente le sommet du pouvoir de fixation des prix et qu’elle continuera à générer des revenus faute d’alternatives suffisantes
- Des doutes subsistent sur sa résilience à long terme
- Les hyperscalers consolident la demande en IA et développent des puces compétitives
- D’autres entreprises construisent également de grandes fermes de GPU
Certains estiment que le contrôle qualité des pilotes GPU de Nvidia se dégrade
- Cependant, les produits étant en rupture de stock depuis plusieurs années, il est difficile d’affirmer que le contrôle qualité est en baisse