2 points par GN⁺ 2024-03-19 | 2 commentaires | Partager sur WhatsApp
  • Alors que la demande pour les GPU Nvidia a explosé depuis le boom de l’IA, cette annonce de la nouvelle génération Blackwell vise à renforcer encore sa position de fournisseur pour l’entraînement et le déploiement de grands modèles
  • La première puce Blackwell, GB200, doit être livrée plus tard cette année, avec des performances IA passant de 4 petaflops à 20 petaflops par rapport à la génération Hopper à laquelle appartient le H100
  • Le GB200 associe deux GPU B200 Blackwell et un CPU Grace basé sur Arm, et Amazon, Google, Microsoft et Oracle proposeront un accès cloud
  • Le nouveau logiciel NIM facilite aussi le déploiement de l’inférence IA sur les GPU Nvidia existants, avec une licence Nvidia enterprise à 4 500 dollars par GPU et par an
  • Au-delà de la vente de puces, Nvidia renforce sa stratégie de plateforme logicielle pour garder ses clients dans son écosystème plutôt que de les voir aller vers des puces concurrentes

Annonce de Blackwell et position de Nvidia comme fournisseur d’IA

  • Nvidia a annoncé, lors de sa conférence développeurs à San Jose le 18 mars 2024, une nouvelle génération de puces d’IA ainsi que des logiciels pour exécuter des modèles d’IA
  • Au moment de l’annonce, les entreprises et éditeurs de logiciels étaient toujours en concurrence pour obtenir des puces de la génération actuelle, comme le Hopper H100
  • Jensen Huang a déclaré : « Hopper est formidable, mais il faut un GPU plus gros »
  • Depuis que ChatGPT d’OpenAI a déclenché le boom de l’IA fin 2022, l’action Nvidia a été multipliée par 5 et son chiffre d’affaires total a plus que triplé
    • Des entreprises comme Microsoft et Meta ont dépensé des milliards de dollars pour acheter des GPU serveur haut de gamme de Nvidia
    • L’action Nvidia a reculé de plus de 1 % lors des échanges après clôture lundi
  • Configuration et performances du GB200

    • La nouvelle génération de processeurs graphiques pour l’IA s’appelle Blackwell, et la première puce Blackwell est le GB200
    • Nvidia renouvelle son architecture GPU environ tous les deux ans pour offrir de fortes hausses de performances
    • L’architecture Hopper, annoncée en 2022, a été utilisée dans des puces comme le H100, et nombre de modèles d’IA dévoilés au cours de l’année écoulée ont été entraînés sur Hopper
    • Les performances IA du GB200 basé sur Blackwell atteignent 20 petaflops, contre 4 petaflops pour le H100
    • Cette hausse de puissance de calcul peut servir aux entreprises de l’IA à entraîner des modèles plus grands et plus complexes
    • La puce intègre un transformer engine destiné à exécuter l’IA basée sur les transformers, l’une des technologies clés derrière ChatGPT
    • Le GPU Blackwell est fabriqué par TSMC et combine en une seule puce deux dies fabriqués séparément
  • Serveurs et offre cloud

    • Le GB200 combine deux GPU B200 Blackwell et un CPU Grace basé sur Arm
    • Nvidia proposera aussi un serveur complet, le GB200 NVLink 2, qui regroupe 72 GPU Blackwell et d’autres composants Nvidia
    • Amazon, Google, Microsoft et Oracle vendront un accès au GB200 sous forme de service cloud
    • Amazon Web Services prévoit de construire un cluster de serveurs équipé de 20 000 puces GB200
    • Ce système pourra déployer un modèle de 27 billions de paramètres, bien au-delà de GPT-4, présenté dans la presse comme un modèle de 1,7 billion de paramètres
    • Nvidia n’a pas dévoilé le prix du GB200 ni des systèmes qui l’utilisent
    • Selon les estimations d’analystes, le H100 basé sur Hopper coûte entre 25 000 et 40 000 dollars par puce, et un système complet peut atteindre 200 000 dollars
    • Nvidia prévoit aussi de vendre le processeur graphique B200 sous forme de système complet occupant une baie serveur entière

NIM et la stratégie de plateforme de Nvidia

  • Nvidia ajoute NIM (Nvidia Inference Microservice) comme nouveau produit à son abonnement logiciel Nvidia enterprise
  • NIM facilite l’inférence — le processus d’exécution d’un logiciel d’IA — sur les GPU Nvidia existants
    • L’inférence demande moins de calcul que l’entraînement initial d’un nouveau modèle d’IA
    • L’objectif est de permettre aux entreprises de continuer à exploiter les centaines de millions de GPU Nvidia qu’elles possèdent déjà
  • Les principales cibles de NIM sont les entreprises qui veulent exécuter leurs propres modèles d’IA, au lieu d’acheter les résultats d’IA comme service auprès de sociétés comme OpenAI
  • L’élément clé de la stratégie consiste à relier les clients qui achètent des serveurs basés sur Nvidia à l’abonnement Nvidia enterprise
    • Le coût de la licence est de 4 500 dollars par GPU et par an
  • Déploiement des modèles et usage côté développeurs

    • Nvidia prévoit de travailler avec des entreprises de l’IA comme Microsoft et Hugging Face afin d’ajuster les modèles d’IA pour qu’ils fonctionnent sur l’ensemble des puces Nvidia compatibles
    • Les développeurs pourront utiliser NIM pour exécuter efficacement des modèles sur leurs propres serveurs ou sur des serveurs Nvidia dans le cloud, sans longue phase de configuration
    • Selon Manuvir Das, il suffira de modifier une ligne dans le code existant pour remplacer l’appel à OpenAI par un pointage vers un NIM fourni par Nvidia
    • Nvidia indique que ce logiciel aide à exécuter l’IA non seulement sur des serveurs cloud, mais aussi sur des ordinateurs portables équipés de GPU
  • D’un fabricant de puces à une plateforme logicielle

    • NIM est un produit qui donne aux clients une raison supplémentaire de rester sur les puces Nvidia plutôt que de passer à des puces concurrentes
    • Nvidia ne veut plus être seulement un fournisseur de puces opportuniste, mais se rapproche d’un rôle de fournisseur de plateforme sur laquelle d’autres entreprises peuvent bâtir des logiciels
    • Huang a déclaré : « Blackwell n’est pas le nom d’une puce, c’est le nom d’une plateforme »
    • Das a expliqué qu’auparavant, le produit commercialisable était le GPU et que le logiciel servait à mieux exploiter ce GPU, mais que Nvidia dispose désormais d’une véritable activité logicielle commerciale

2 commentaires

 
corelyai 2024-03-20
  • Conférence des développeurs Nvidia : présentation de la puce Blackwell et des technologies futures
  • Nvidia a présenté Blackwell, une plateforme innovante dotée de 28 milliards de transistors adjacents sur deux dies afin de créer une seule puce géante capable de transférer 10 téraoctets de données par seconde, avec une compatibilité de format adaptée à Hopper.
  • Le switch de lien MVY de Blackwell, équipé de 50 milliards de transistors, permet des communications à vitesse maximale entre GPU, rendant possible la construction d’un système d’IA de niveau exaflop dans un seul rack.
  • Nvidia a annoncé que Blackwell s’associe à AWS, Google, Oracle et Microsoft pour accélérer divers services d’IA et intégrer la technologie Nvidia à ces plateformes.
  • Nvidia a dévoilé une AI Foundry, en collaboration avec des entreprises comme SAP, ServiceNow, Cohesity, Snowflake et Dell, pour créer des solutions d’IA générative et des usines d’IA.
  • En diffusant Omniverse Cloud sur Vision Pro pour permettre une intégration fluide et des workflows entre divers outils de conception, Nvidia présente aussi Project Groot, Isaac Lab et OSMO pour les robots alimentés par l’IA.
  • Le robot bdx de Disney, propulsé par Jetson, a fait une apparition spéciale et a présenté ses capacités d’apprentissage dans Isaac Sim.

Il s’agit d’un résumé du contenu d’une vidéo CNET réalisé avec corely.ai (https://www.youtube.com/watch?v=bMIRhOXAjYk)

 
GN⁺ 2024-03-19
Avis sur Hacker News
  • À voir la keynote et le contenu de la conférence, Nvidia remonte dans la pile, comme le font souvent les bons fabricants de matériel
    Bien sûr, ils continueront à fabriquer du matériel plus gros, mais le point clé est qu’ils sont en train de créer NIM, une sorte de Docker pour LLM. Ils construisent un système de conteneurs qu’on peut télécharger ou acheter et déployer facilement sur du matériel Nvidia ; il sera intéressant de voir l’impact que cela aura sur les startups IA

    • Je ne pense pas que cela aura beaucoup d’effet sur la plupart des IA grand public. L’UI et la facilité d’utilisation sont déjà de gros arguments de vente
      La menace la plus importante, c’est quand la fonctionnalité centrale d’une activité se retrouve intégrée dans des logiciels grand public. Aujourd’hui, l’iPhone sait supprimer l’arrière-plan, donc la demande pour des services payants de suppression d’arrière-plan disparaît ; de la même façon, si un produit IA peut facilement devenir une simple fonctionnalité d’une application métier existante, cette activité est en sursis
    • Il existe aussi une alternative open source : https://github.com/geniusrise
    • Je ne suis pas tous les développements dans l’IA, mais je me demande quel type de startups IA est visé ici
      Des startups AI-as-a-Service qui fournissent de « l’infrastructure », par exemple ?
  • L’idée que « Nvidia passe d’un fournisseur de puces façon mercenaire à quelque chose de plus proche d’un fournisseur de plateforme, comme Microsoft ou Apple, sur laquelle d’autres entreprises peuvent créer du logiciel » se comprend du point de vue de la croissance
    Devenir un service de plateforme pour l’IA serait plus rentable pour Nvidia, mais il sera difficile de maintenir l’équilibre avec des partenariats déjà en place comme AWS et Microsoft. On devrait voir à l’avenir des acquisitions ou des solutions sur mesure concurrentes, et heureusement pour Nvidia, une bonne partie de l’IA dépend encore de CUDA, ce qui rendra la suite intéressante

    • Nvidia semble se préparer à un monde où la moitié de ses clients, les hyperscalers, n’utilisent que les GPU et CUDA, tandis que le reste de la longue traîne de clients utilise une plateforme de plus haut niveau et plus rentable
      Ils n’ont pas assez de levier pour forcer les clients dans une direction, et il serait plus simple de vendre seulement des GPU, mais ils semblent comprendre que les clients sophistiqués peuvent migrer vers d’autres puces, tandis qu’une plateforme retient les petits clients
    • À terme, je pense qu’il y aura un procès antitrust, qu’on exigera l’ouverture du standard CUDA, puis qu’AMD deviendra un concurrent
      Si Nvidia le voulait, elle pourrait ouvrir volontairement le standard pour éviter ce genre de procès, et personnellement je pense que ce serait le choix le plus sage, mais historiquement presque toutes les entreprises ont préféré le procès à l’ouverture volontaire
    • AWS pousse fortement ARM, mais les gens achètent toujours massivement du calcul x86/x64
      Même si AWS dispose de sa propre solution matériel+logiciel pour les réseaux neuronaux, sortir de la plateforme CUDA pourrait prendre des années, voire des décennies
    • Si les GPU AMD/Intel étaient aussi performants et largement utilisés que ceux de Nvidia, Microsoft et AWS auraient aussi noué des partenariats avec eux
      Microsoft a des partenariats avec OpenAI comme avec Mistral. Rien ne garantit que la commodité actuelle se maintienne à l’avenir, et Nvidia le sait très bien
  • Qu’est-ce que FP4, du flottant 4 bits ? Si c’est le cas, le graphique comparatif [0] annonçant 30× par rapport à Hopper était un peu trompeur
    [0] https://youtu.be/Y2F8yisiS6E?t=4698

    • FP4 est du flottant 4 bits, et il est deux fois plus rapide que le flottant 8 bits. Il existe aussi FP6, qui ne se calcule pas plus vite que FP8, mais permet de profiter d’une meilleure bande passante mémoire et d’une meilleure utilisation du cache grâce au format 6 bits
      Certains font le lien avec cet article [1] sur les LLM en 4 bits, dont l’un des auteurs est aussi employé chez Nvidia
      1: https://arxiv.org/pdf/2310.16836.pdf
    • Ce n’est trompeur qu’en partie. Dans les LLM, FP4 n’est pas seulement moitié moins utile que FP8
      Si vous avez un équipement écrasant en FP4, vous l’utilisez, et vous pouvez obtenir des gains de vitesse en minimisant la perte de précision. Il y a bien une part de créativité marketing, mais ce n’est pas totalement faux comme mesure de l’usage réel
    • https://arxiv.org/pdf/2310.10537.pdf
      Cela avait déjà été abordé dans un précédent fil : https://news.ycombinator.com/item?id=37930663
    • Je me demande comment 4 bits peuvent suffire. Les calculs intermédiaires se font-ils avec une largeur plus grande avant d’être redescendus en FP4 ?
    • Exact. Il était question d’un moteur de transformeur conscient de la précision, ce qui peut faciliter l’utilisation de FP4, mais ce n’est pas 30× plus rapide à conditions égales
      En réalité, cela ressemble plutôt à deux Hopper côte à côte sur un nœud de gravure légèrement amélioré, donc rien de surprenant ; dans les cas où l’on n’exploite pas ces nouvelles fonctions ni la mémoire accrue, un facteur autour de 2,5× paraît plus plausible
  • Ils ont acquis Bright Cluster Manager il y a quelques années ; qui sera la prochaine cible ? On dirait qu’ils veulent fournir toute la pile à leurs clients

    • Canonical est une cible mûre. Canonical a essayé ces dernières années de développer Ubuntu et d’autres outils dans le monde de l’entreprise, sans grand succès, et une grande partie des kits de développement Nvidia est construite autour d’Ubuntu
    • Run:AI https://news.ycombinator.com/item?id=39738342
    • Ils pourraient aussi racheter Anthropic ou Mistral pour créer une AGI/ASI
  • Nous sommes à l’ère de la production de masse de pétaflops à deux chiffres
    « La puissance de calcul nécessaire pour reproduire l’activité pertinente du cerveau humain a été estimée par différents auteurs entre 10^12 et 10^28 FLOPS. » Un pétaflop, c’est 10^15. Époque folle

    • Je serais heureux si cela servait à concevoir une centrale à fusion viable. Je serais très déçu si l’essentiel était utilisé pour le ciblage publicitaire
  • C’est dommage pour Masayoshi Son de Softbank. En 2019, il détenait 3,1 milliards de dollars d’actions Nvidia ; aujourd’hui, cela vaudrait 19 fois plus, soit 60 milliards de dollars
    Il était extrêmement optimiste sur l’IA et la robotique, mais trop en avance sur son temps

    • Petite correction : Masayoshi Son
  • Ici, « entreprise de plateforme », ça veut dire multi-puces ?
    Comme il devient irréaliste d’entasser autant de transistors sur un seul die, ça paraît logique.

    • Je ne connais pas bien la vision d’ensemble de la gamme, mais à en juger par les chiffres physiques et la configuration dont Jensen se vantait, on dirait qu’ils veulent en fait jouer à un jeu façon mainframe.
      L’idée est de verrouiller des applications haut de gamme tournant sur un châssis propriétaire, une interconnexion de clusters propriétaire et un middleware propriétaire. Ça rappelle l’acquisition de Mellanox.
    • Ça désigne l’ensemble des principales puces nécessaires aux grands data centers, ainsi qu’une bonne partie des couches logicielles au-dessus.
      Côté matériel, cela inclut les GPU, NVLINK comme fabric GPU-GPU, les CPU, les NIC, InfiniBand comme fabric réseau, et les switches. À cela s’ajoutent plusieurs couches de stacks logiciels comme CUDA, Riva, Megatron ou Omniverse, qu’ils contribuent à faire construire par d’autres et qu’ils poussent par-dessus.
    • Non, ça veut dire recherche de rente.
      Il suffit d’imaginer qu’AWS vende aussi tous les ordinateurs du monde. La structure devient alors telle qu’on ne peut plus les louer que chez eux.
  • Je me demande quand l’industrie commencera à s’attaquer au problème de scalabilité des LLM. Du point de vue de Nvidia, il est évidemment dans son intérêt de continuer à sortir des GPU plus gros et meilleurs, mais quel est l’intérêt collectif ?
    On a déjà prouvé qu’avec suffisamment de ressources, on pouvait obtenir de bons modèles de langage. Le défi, désormais, est d’intégrer ces modèles dans des solutions qui n’exigent pas des quantités de ressources inimaginables pour des cas d’usage moyens.

    • Le développement logiciel gaspilleur est facile et permet de maintenir l’élan du développement. Tant que la croissance est reine, l’approche rapide et sale battra toujours les petits systèmes bien optimisés.
      Ce n’est pas un problème propre à l’IA, mais à tous les logiciels que nous utilisons. Il n’y a que deux catégories de personnes qui optimisent et adaptent à des systèmes plus petits : les programmeurs passionnés, et ceux qui sont payés pour le faire. Par exemple, les équipes logicielles des fabricants de téléphones.
  • Le cours n’a pas bougé en after-market. Beaucoup s’attendaient à un gros bond après une grande annonce.

    • Le cours de Bourse n’est pas un bon indicateur de court terme, ni de l’avancement de Nvidia ni de celui de n’importe quelle entreprise. Nvidia fait un excellent travail.
      Cela dit, l’action est vraiment survalorisée à un niveau ridicule.
    • Avec une capitalisation de 2 000 milliards de dollars, tout est déjà intégré dans le prix.
    • Si l’on veut une telle envolée, il faudra attendre les prévisions de résultats. Pour l’instant, le titre est extrêmement suracheté et peine à dépasser les 1 000 dollars par action.
      À court terme, Microsoft et OpenAI utiliseront ces puces, mais à long terme ils s’en inspireront pour fabriquer leurs propres puces, réduire leur dépendance à Nvidia et se préparer à migrer à la fin des contrats.
    • Nvidia n’est pas une valeur secrète. S’il y a de la valeur cachée dans l’action, elle est probablement déjà largement prise en compte.
    • Et en plus, elle s’est aussi essoufflée en séance. Le titre était peut-être tellement en surchauffe qu’aucune nouvelle ne pouvait plus vraiment le faire monter.
  • Ils affirment avoir réduit la consommation électrique par 25 ; est-ce que ça peut être exact ? Quelqu’un sait d’où vient ce chiffre ?

    • Le chiffre vient d’ici [1]. En gros, c’est une comparaison entre un rack H100 et 8 racks B.
      Cela dit, je pense qu’il peut y avoir une coquille. C’est probablement une comparaison incluant aussi le refroidissement liquide contre le refroidissement par air.
      [1] https://nvdam.widen.net/s/xqt56dflgh/nvidia-blackwell-archit...
    • Tu l’as lu dans l’article en lien ? Je ne l’ai pas trouvé.
      C’est peut-être lié au gain de performance de 5x, donc à une amélioration de l’efficacité, et au fait qu’on puisse désormais utiliser 27 000 milliards de paramètres au lieu de 1 700 milliards : la même charge de travail pourrait être terminée en 1/25 du temps, d’où l’idée de baisse de consommation électrique. Comme tu le dis, je suis sceptique sur le fait que la consommation maximale elle-même soit 25 fois plus faible.