Jensen Huang de Nvidia présente la nouvelle puce d’IA Blackwell : « Il faut un GPU plus gros »
(cnbc.com)- Alors que la demande pour les GPU Nvidia a explosé depuis le boom de l’IA, cette annonce de la nouvelle génération Blackwell vise à renforcer encore sa position de fournisseur pour l’entraînement et le déploiement de grands modèles
- La première puce Blackwell, GB200, doit être livrée plus tard cette année, avec des performances IA passant de 4 petaflops à 20 petaflops par rapport à la génération Hopper à laquelle appartient le H100
- Le GB200 associe deux GPU B200 Blackwell et un CPU Grace basé sur Arm, et Amazon, Google, Microsoft et Oracle proposeront un accès cloud
- Le nouveau logiciel NIM facilite aussi le déploiement de l’inférence IA sur les GPU Nvidia existants, avec une licence Nvidia enterprise à 4 500 dollars par GPU et par an
- Au-delà de la vente de puces, Nvidia renforce sa stratégie de plateforme logicielle pour garder ses clients dans son écosystème plutôt que de les voir aller vers des puces concurrentes
Annonce de Blackwell et position de Nvidia comme fournisseur d’IA
- Nvidia a annoncé, lors de sa conférence développeurs à San Jose le 18 mars 2024, une nouvelle génération de puces d’IA ainsi que des logiciels pour exécuter des modèles d’IA
- Au moment de l’annonce, les entreprises et éditeurs de logiciels étaient toujours en concurrence pour obtenir des puces de la génération actuelle, comme le Hopper H100
- Jensen Huang a déclaré : « Hopper est formidable, mais il faut un GPU plus gros »
- Depuis que ChatGPT d’OpenAI a déclenché le boom de l’IA fin 2022, l’action Nvidia a été multipliée par 5 et son chiffre d’affaires total a plus que triplé
- Des entreprises comme Microsoft et Meta ont dépensé des milliards de dollars pour acheter des GPU serveur haut de gamme de Nvidia
- L’action Nvidia a reculé de plus de 1 % lors des échanges après clôture lundi
-
Configuration et performances du GB200
- La nouvelle génération de processeurs graphiques pour l’IA s’appelle Blackwell, et la première puce Blackwell est le GB200
- Nvidia renouvelle son architecture GPU environ tous les deux ans pour offrir de fortes hausses de performances
- L’architecture Hopper, annoncée en 2022, a été utilisée dans des puces comme le H100, et nombre de modèles d’IA dévoilés au cours de l’année écoulée ont été entraînés sur Hopper
- Les performances IA du GB200 basé sur Blackwell atteignent 20 petaflops, contre 4 petaflops pour le H100
- Cette hausse de puissance de calcul peut servir aux entreprises de l’IA à entraîner des modèles plus grands et plus complexes
- La puce intègre un transformer engine destiné à exécuter l’IA basée sur les transformers, l’une des technologies clés derrière ChatGPT
- Le GPU Blackwell est fabriqué par TSMC et combine en une seule puce deux dies fabriqués séparément
-
Serveurs et offre cloud
- Le GB200 combine deux GPU B200 Blackwell et un CPU Grace basé sur Arm
- Nvidia proposera aussi un serveur complet, le GB200 NVLink 2, qui regroupe 72 GPU Blackwell et d’autres composants Nvidia
- Amazon, Google, Microsoft et Oracle vendront un accès au GB200 sous forme de service cloud
- Amazon Web Services prévoit de construire un cluster de serveurs équipé de 20 000 puces GB200
- Ce système pourra déployer un modèle de 27 billions de paramètres, bien au-delà de GPT-4, présenté dans la presse comme un modèle de 1,7 billion de paramètres
- Nvidia n’a pas dévoilé le prix du GB200 ni des systèmes qui l’utilisent
- Selon les estimations d’analystes, le H100 basé sur Hopper coûte entre 25 000 et 40 000 dollars par puce, et un système complet peut atteindre 200 000 dollars
- Nvidia prévoit aussi de vendre le processeur graphique B200 sous forme de système complet occupant une baie serveur entière
NIM et la stratégie de plateforme de Nvidia
- Nvidia ajoute NIM (Nvidia Inference Microservice) comme nouveau produit à son abonnement logiciel Nvidia enterprise
- NIM facilite l’inférence — le processus d’exécution d’un logiciel d’IA — sur les GPU Nvidia existants
- L’inférence demande moins de calcul que l’entraînement initial d’un nouveau modèle d’IA
- L’objectif est de permettre aux entreprises de continuer à exploiter les centaines de millions de GPU Nvidia qu’elles possèdent déjà
- Les principales cibles de NIM sont les entreprises qui veulent exécuter leurs propres modèles d’IA, au lieu d’acheter les résultats d’IA comme service auprès de sociétés comme OpenAI
- L’élément clé de la stratégie consiste à relier les clients qui achètent des serveurs basés sur Nvidia à l’abonnement Nvidia enterprise
- Le coût de la licence est de 4 500 dollars par GPU et par an
-
Déploiement des modèles et usage côté développeurs
- Nvidia prévoit de travailler avec des entreprises de l’IA comme Microsoft et Hugging Face afin d’ajuster les modèles d’IA pour qu’ils fonctionnent sur l’ensemble des puces Nvidia compatibles
- Les développeurs pourront utiliser NIM pour exécuter efficacement des modèles sur leurs propres serveurs ou sur des serveurs Nvidia dans le cloud, sans longue phase de configuration
- Selon Manuvir Das, il suffira de modifier une ligne dans le code existant pour remplacer l’appel à OpenAI par un pointage vers un NIM fourni par Nvidia
- Nvidia indique que ce logiciel aide à exécuter l’IA non seulement sur des serveurs cloud, mais aussi sur des ordinateurs portables équipés de GPU
-
D’un fabricant de puces à une plateforme logicielle
- NIM est un produit qui donne aux clients une raison supplémentaire de rester sur les puces Nvidia plutôt que de passer à des puces concurrentes
- Nvidia ne veut plus être seulement un fournisseur de puces opportuniste, mais se rapproche d’un rôle de fournisseur de plateforme sur laquelle d’autres entreprises peuvent bâtir des logiciels
- Huang a déclaré : « Blackwell n’est pas le nom d’une puce, c’est le nom d’une plateforme »
- Das a expliqué qu’auparavant, le produit commercialisable était le GPU et que le logiciel servait à mieux exploiter ce GPU, mais que Nvidia dispose désormais d’une véritable activité logicielle commerciale
2 commentaires
Il s’agit d’un résumé du contenu d’une vidéo CNET réalisé avec corely.ai (https://www.youtube.com/watch?v=bMIRhOXAjYk)
Avis sur Hacker News
À voir la keynote et le contenu de la conférence, Nvidia remonte dans la pile, comme le font souvent les bons fabricants de matériel
Bien sûr, ils continueront à fabriquer du matériel plus gros, mais le point clé est qu’ils sont en train de créer NIM, une sorte de Docker pour LLM. Ils construisent un système de conteneurs qu’on peut télécharger ou acheter et déployer facilement sur du matériel Nvidia ; il sera intéressant de voir l’impact que cela aura sur les startups IA
La menace la plus importante, c’est quand la fonctionnalité centrale d’une activité se retrouve intégrée dans des logiciels grand public. Aujourd’hui, l’iPhone sait supprimer l’arrière-plan, donc la demande pour des services payants de suppression d’arrière-plan disparaît ; de la même façon, si un produit IA peut facilement devenir une simple fonctionnalité d’une application métier existante, cette activité est en sursis
Des startups AI-as-a-Service qui fournissent de « l’infrastructure », par exemple ?
L’idée que « Nvidia passe d’un fournisseur de puces façon mercenaire à quelque chose de plus proche d’un fournisseur de plateforme, comme Microsoft ou Apple, sur laquelle d’autres entreprises peuvent créer du logiciel » se comprend du point de vue de la croissance
Devenir un service de plateforme pour l’IA serait plus rentable pour Nvidia, mais il sera difficile de maintenir l’équilibre avec des partenariats déjà en place comme AWS et Microsoft. On devrait voir à l’avenir des acquisitions ou des solutions sur mesure concurrentes, et heureusement pour Nvidia, une bonne partie de l’IA dépend encore de CUDA, ce qui rendra la suite intéressante
Ils n’ont pas assez de levier pour forcer les clients dans une direction, et il serait plus simple de vendre seulement des GPU, mais ils semblent comprendre que les clients sophistiqués peuvent migrer vers d’autres puces, tandis qu’une plateforme retient les petits clients
Si Nvidia le voulait, elle pourrait ouvrir volontairement le standard pour éviter ce genre de procès, et personnellement je pense que ce serait le choix le plus sage, mais historiquement presque toutes les entreprises ont préféré le procès à l’ouverture volontaire
Même si AWS dispose de sa propre solution matériel+logiciel pour les réseaux neuronaux, sortir de la plateforme CUDA pourrait prendre des années, voire des décennies
Microsoft a des partenariats avec OpenAI comme avec Mistral. Rien ne garantit que la commodité actuelle se maintienne à l’avenir, et Nvidia le sait très bien
Qu’est-ce que FP4, du flottant 4 bits ? Si c’est le cas, le graphique comparatif [0] annonçant 30× par rapport à Hopper était un peu trompeur
[0] https://youtu.be/Y2F8yisiS6E?t=4698
Certains font le lien avec cet article [1] sur les LLM en 4 bits, dont l’un des auteurs est aussi employé chez Nvidia
1: https://arxiv.org/pdf/2310.16836.pdf
Si vous avez un équipement écrasant en FP4, vous l’utilisez, et vous pouvez obtenir des gains de vitesse en minimisant la perte de précision. Il y a bien une part de créativité marketing, mais ce n’est pas totalement faux comme mesure de l’usage réel
Cela avait déjà été abordé dans un précédent fil : https://news.ycombinator.com/item?id=37930663
En réalité, cela ressemble plutôt à deux Hopper côte à côte sur un nœud de gravure légèrement amélioré, donc rien de surprenant ; dans les cas où l’on n’exploite pas ces nouvelles fonctions ni la mémoire accrue, un facteur autour de 2,5× paraît plus plausible
Ils ont acquis Bright Cluster Manager il y a quelques années ; qui sera la prochaine cible ? On dirait qu’ils veulent fournir toute la pile à leurs clients
Nous sommes à l’ère de la production de masse de pétaflops à deux chiffres
« La puissance de calcul nécessaire pour reproduire l’activité pertinente du cerveau humain a été estimée par différents auteurs entre 10^12 et 10^28 FLOPS. » Un pétaflop, c’est 10^15. Époque folle
C’est dommage pour Masayoshi Son de Softbank. En 2019, il détenait 3,1 milliards de dollars d’actions Nvidia ; aujourd’hui, cela vaudrait 19 fois plus, soit 60 milliards de dollars
Il était extrêmement optimiste sur l’IA et la robotique, mais trop en avance sur son temps
Ici, « entreprise de plateforme », ça veut dire multi-puces ?
Comme il devient irréaliste d’entasser autant de transistors sur un seul die, ça paraît logique.
L’idée est de verrouiller des applications haut de gamme tournant sur un châssis propriétaire, une interconnexion de clusters propriétaire et un middleware propriétaire. Ça rappelle l’acquisition de Mellanox.
Côté matériel, cela inclut les GPU, NVLINK comme fabric GPU-GPU, les CPU, les NIC, InfiniBand comme fabric réseau, et les switches. À cela s’ajoutent plusieurs couches de stacks logiciels comme CUDA, Riva, Megatron ou Omniverse, qu’ils contribuent à faire construire par d’autres et qu’ils poussent par-dessus.
Il suffit d’imaginer qu’AWS vende aussi tous les ordinateurs du monde. La structure devient alors telle qu’on ne peut plus les louer que chez eux.
Je me demande quand l’industrie commencera à s’attaquer au problème de scalabilité des LLM. Du point de vue de Nvidia, il est évidemment dans son intérêt de continuer à sortir des GPU plus gros et meilleurs, mais quel est l’intérêt collectif ?
On a déjà prouvé qu’avec suffisamment de ressources, on pouvait obtenir de bons modèles de langage. Le défi, désormais, est d’intégrer ces modèles dans des solutions qui n’exigent pas des quantités de ressources inimaginables pour des cas d’usage moyens.
Ce n’est pas un problème propre à l’IA, mais à tous les logiciels que nous utilisons. Il n’y a que deux catégories de personnes qui optimisent et adaptent à des systèmes plus petits : les programmeurs passionnés, et ceux qui sont payés pour le faire. Par exemple, les équipes logicielles des fabricants de téléphones.
Le cours n’a pas bougé en after-market. Beaucoup s’attendaient à un gros bond après une grande annonce.
Cela dit, l’action est vraiment survalorisée à un niveau ridicule.
À court terme, Microsoft et OpenAI utiliseront ces puces, mais à long terme ils s’en inspireront pour fabriquer leurs propres puces, réduire leur dépendance à Nvidia et se préparer à migrer à la fin des contrats.
Ils affirment avoir réduit la consommation électrique par 25 ; est-ce que ça peut être exact ? Quelqu’un sait d’où vient ce chiffre ?
Cela dit, je pense qu’il peut y avoir une coquille. C’est probablement une comparaison incluant aussi le refroidissement liquide contre le refroidissement par air.
[1] https://nvdam.widen.net/s/xqt56dflgh/nvidia-blackwell-archit...
C’est peut-être lié au gain de performance de 5x, donc à une amélioration de l’efficacité, et au fait qu’on puisse désormais utiliser 27 000 milliards de paramètres au lieu de 1 700 milliards : la même charge de travail pourrait être terminée en 1/25 du temps, d’où l’idée de baisse de consommation électrique. Comme tu le dis, je suis sceptique sur le fait que la consommation maximale elle-même soit 25 fois plus faible.