- NVIDIA a connu une croissance rapide grâce au boom de l’IA et à son monopole sur les GPU, mais sa position à long terme est menacée par le développement de puces maison et les stratégies d’intégration verticale des géants du cloud
- La demande en GPU des startups et des opérateurs cloud indépendants diminue, et la dégradation de la rentabilité des modèles économiques fortement dépendants de NVIDIA devient visible
- Google, Amazon, Microsoft, Meta et d’autres réduisent rapidement leur dépendance à NVIDIA grâce à des puces sur mesure haute performance et à des systèmes intégrés verticalement
- L’infrastructure distribuée et l’optimisation fondée sur l’interconnexion de clusters deviennent des éléments clés de l’entraînement de l’IA, ce qui constitue un changement structurel auquel NVIDIA a du mal à répondre
- NVIDIA tente d’améliorer son matériel et ses logiciels, mais il existe un risque d’affaiblissement de sa compétitivité face aux stratégies d’intégration verticale approfondie des hyperscalers
De la domination à la crise chez NVIDIA : les bouleversements du marché du compute pour l’IA
- NVIDIA a connu une croissance fulgurante grâce au boom de l’IA, à son monopole sur les GPU et à la fourniture de serveurs DGX, jusqu’à enregistrer une performance historique avec une hausse de 2 000 milliards de dollars de capitalisation boursière en 13 mois
- Mais la génération H100 marque le sommet de la rentabilité, et la série B200 lancée ensuite s’accompagne d’une baisse de rentabilité et d’une hausse des coûts de fabrication
- À long terme, les hyperscalers consolident la demande et renforcent leur compétitivité via le développement de puces sur mesure, ce qui ébranle la structure monopolistique de NVIDIA
Recomposition de la demande en IA et contraction du marché des startups
- Plus de la moitié de la demande datacenter de NVIDIA provient des hyperscalers comme Google, Microsoft, Amazon et Meta
- Le reste de la demande provenait des startups, des fonds de capital-risque et des petits acteurs du cloud, mais les achats excessifs de GPU ont réduit le ROI, et les activités de location de GPU sont déficitaires
- Les petits modèles spécialisés comme BloombergGPT peinent sur le marché, tandis que les grands modèles fermés fondés sur des API se standardisent
- Des clouds indépendants comme Coreweave et Lambda sont en difficulté malgré le soutien de NVIDIA, en raison d’un manque de viabilité économique, d’une baisse de rentabilité et d’un ralentissement de la demande
- Les prix de location des GPU ont chuté brutalement jusqu’à 1,99 $ de l’heure, avec un ROE inférieur à 10 %, un niveau difficilement soutenable
La stratégie des hyperscalers autour des puces sur mesure
- Les TPU de Google en sont déjà à la 6e génération et ont complètement remplacé NVIDIA pour des modèles comme Gemini-Ultra, DeepMind et YouTube
- Les Trainium et Inferentia d’Amazon, en collaboration avec Anthropic, remplacent l’inférence et l’entraînement de grands modèles et fournissent le Neuron SDK, qui fonctionne sans CUDA
- L’accélérateur Maia et le CPU Cobalt de Microsoft sont déjà utilisés pour des charges IA internes, avec un SDK basé sur Triton qui renforce la possibilité de remplacer CUDA
- Meta exploite déjà des fonctions d’IA d’Instagram et de WhatsApp sur ses puces MTIA, et une partie de l’entraînement de Llama 3.1 est également réalisée sur des puces maison
- Cette tendance correspond davantage à une structure de marché de l’IA centrée sur l’inférence, et l’inférence basée sur GPU pourrait à l’avenir être dépassée par des puces sur mesure, voire par des solutions fondées sur des CPU
Le basculement vers une architecture centrée sur le système et les limites de NVIDIA
- Les hyperscalers privilégient l’optimisation du système dans son ensemble plutôt que les performances d’une puce isolée
- Google connecte en masse de petits TPU et utilise son réseau optique propriétaire (Apollo) ainsi qu’une topologie réseau en tore pour réduire au minimum la consommation électrique et la latence
- Microsoft a construit un réseau à fibre optique et des transceivers ColorZ afin de rendre possible l’entraînement multi-datacenter, obtenant une infrastructure moins coûteuse et plus performante que celle de NVIDIA
- Il en résulte qu’une architecture distribuée, consistant à relier par le réseau plusieurs datacenters de taille plus modeste pour l’entraînement, s’impose comme la nouvelle norme
- Pour dépasser les contraintes d’alimentation électrique et les limites d’extension des infrastructures, des tentatives de connexion de datacenters à l’échelle nationale sont en cours (par exemple : redémarrage de Three Mile Island par Microsoft, acquisition d’une centrale nucléaire par AWS, etc.)
La réponse matérielle et logicielle de NVIDIA, et ses difficultés structurelles
- NVIDIA tente de réagir avec les serveurs GB200, Spectrum-X, DCGM et RAS
- Son architecture réseau fondée sur Infiniband est vulnérable à très grande échelle et présente des lacunes en matière de tolérance aux pannes
- Des systèmes comme Pathways de Google et Singularity de Microsoft se distinguent par leurs mécanismes propriétaires de tolérance aux pannes et par leur capacité à détecter les erreurs de mémoire GPU
- BaseCommand de NVIDIA, basé sur Kubernetes, est moins performant en matière d’évolutivité et d’intégration que les solutions des hyperscalers comme Borg ou MegaScaler
- En tant qu’arrivant tardif sur les systèmes de refroidissement, NVIDIA reste derrière Google sur l’efficacité énergétique, la durée de vie et l’efficacité spatiale (par exemple : PUE de Google à 1,1 contre 1,4 ou plus pour NVIDIA)
Conclusion
- NVIDIA conserve certes des performances GPU très solides, mais souffre de limites structurelles face aux hyperscalers sur les plans de l’optimisation système, de l’intégration de l’infrastructure et de l’efficacité des coûts
- Les hyperscalers ont déjà achevé une intégration verticale complète, de la puce à l’infrastructure en passant par le logiciel, ce qui leur donne la capacité d’un remplacement complet
- Sans abandonner sa stratégie historique centrée sur le GPU au profit d’une innovation à l’échelle du système, NVIDIA risque d’avoir du mal à maintenir durablement son leadership sur le futur marché du compute pour l’IA
3 commentaires
La personne qui n’a pas acheté d’actions Nvidia à cause de Google Tensor, Tesla Dojo et AMD..
Je me demande aussi quels sont les inconvénients des « puces personnalisées des hyperscalers ».
On a l’impression qu’elles sont décrites comme supérieures sur tous les plans.
Commentaires Hacker News
Certains estiment qu’il s’agit encore d’un article fondé sur l’hypothèse que, pendant que Nvidia ne ferait rien, des concurrents connaîtraient soudainement le succès et menaceraient Nvidia
Bien que l’action de Marvell ait chuté de plus de 50 % cette année, la demande pour les GPU de Nvidia reste forte
Certains pensent que les services protégeront Nvidia
Certains jugent que la position stratégique de Nvidia est sous-estimée
Certains avancent qu’AMD aurait conclu un accord secret avec Nvidia et aurait volontairement créé cette situation
Nvidia passe d’un quasi-monopole fonctionnel à une situation où elle doit faire face à la concurrence
Certains estiment que la génération H100 représente le sommet du pouvoir de fixation des prix et qu’elle continuera à générer des revenus faute d’alternatives suffisantes
Certains estiment que le contrôle qualité des pilotes GPU de Nvidia se dégrade