Nividia, sortie du GPU Tensor Core H200

(nvidia.com)

4 points par GN⁺ 2023-11-15 | 1 commentaires | Partager sur WhatsApp

Le GPU le plus puissant au monde

Le GPU NVIDIA H200 Tensor Core accélère les charges de travail d’IA générative et de calcul haute performance (HPC) grâce à des performances et des capacités mémoire qui changent la donne.
En tant que premier GPU équipé de HBM3e, le H200 fait progresser l’accélération de l’IA générative, des grands modèles de langage (LLMs) et des charges de travail HPC pour le calcul scientifique.

Améliorations des performances basées sur l’architecture NVIDIA Hopper

Le NVIDIA HGX H200, basé sur l’architecture NVIDIA Hopper™, met en avant le GPU NVIDIA H200 Tensor Core avec une mémoire avancée conçue pour traiter de grands volumes de données.

Faire l’expérience du gain de performances

L’inférence de Llama2 70B est 1,9 fois plus rapide, et l’inférence de GPT-3 175B est 1,6 fois plus rapide.
Le calcul haute performance est jusqu’à 110 fois plus rapide qu’avec un CPU.

Des performances supérieures et une mémoire plus grande et plus rapide

Le NVIDIA H200 offre 141 Go de mémoire HBM3e et une bande passante mémoire de 4,8 To/s, ce qui accélère l’IA générative et les LLMs, améliore l’efficacité énergétique et réduit le coût total de possession.

Obtenir des insights grâce à une inférence LLM haute performance

Les accélérateurs d’inférence IA doivent offrir le meilleur débit et le TCO le plus bas lorsqu’ils sont déployés auprès d’une large base d’utilisateurs.
Le H200 fournit une vitesse d’inférence jusqu’à 2 fois plus rapide que le GPU H100 pour le traitement des LLMs.

Accélérer le calcul haute performance

La bande passante mémoire est essentielle pour les applications HPC, car elle permet des transferts de données plus rapides et réduit les goulets d’étranglement dans les traitements complexes.
La bande passante mémoire élevée du H200 rend l’accès et la manipulation des données plus efficaces, permettant d’obtenir des résultats jusqu’à 110 fois plus vite qu’avec un CPU.

Réduction de la consommation énergétique et du TCO

L’adoption du H200 fait atteindre à l’efficacité énergétique et au TCO un nouveau niveau.
Il offre des performances remarquables dans le même profil énergétique, avec des avantages plus écologiques et plus économiques.

Performances

L’architecture NVIDIA Hopper apporte des gains de performances sans précédent et continue de relever les références de performance du H100 grâce à des améliorations logicielles continues.
L’introduction du H200 prolonge encore ces gains, et garantit le leadership en matière de performances actuelles et futures grâce à des améliorations continues du logiciel pris en charge.

Prêt pour l’entreprise : les logiciels IA simplifient le développement et le déploiement

Avec NVIDIA AI Enterprise, le NVIDIA H200 simplifie la création de plateformes prêtes pour l’IA et accélère le développement et le déploiement de l’IA générative, de la vision par ordinateur, de l’IA vocale et d’autres usages.
Ils offrent une sécurité, une administrabilité, une stabilité et un support de niveau entreprise, afin d’obtenir plus rapidement des insights exploitables et d’atteindre plus vite une valeur métier concrète.

Spécifications du GPU NVIDIA H200 Tensor Core

Format : H200 SXM
FP64 : 34 TFLOPS
FP64 Tensor Core : 67 TFLOPS
FP32 : 67 TFLOPS
TF32 Tensor Core : 989 TFLOPS
BFLOAT16 Tensor Core : 1,979 TFLOPS
FP16 Tensor Core : 1,979 TFLOPS
FP8 Tensor Core : 3,958 TFLOPS
INT8 Tensor Core : 3,958 TFLOPS
Mémoire GPU : 141 Go
Bande passante mémoire GPU : 4,8 To/s
Décodeur : 7 NVDEC
Puissance thermique maximale (TDP) : jusqu’à 700 W (configurable)
GPU multi-instance : jusqu’à 7 MIGs de 16,5 Go chacun

L’avis de GN⁺

Le point le plus important de cet article est que NVIDIA a présenté, avec le GPU H200 Tensor Core, le GPU le plus puissant au monde pour les charges de travail IA et HPC. Ce GPU devrait contribuer non seulement à l’accélération de l’IA générative et des grands modèles de langage, mais aussi à l’évolution des charges de travail HPC pour le calcul scientifique. Cette avancée technologique intéressera aussi les ingénieurs logiciel débutants et pourrait apporter des changements innovants aux projets auxquels ils participent. La mémoire avancée et la puissance de traitement du H200 devraient accélérer les progrès dans les domaines de l’IA et de la recherche scientifique en permettant des calculs plus rapides, une meilleure efficacité énergétique et un TCO plus faible.

1 commentaires

GN⁺ 2023-11-15

Commentaires Hacker News

Le die du GPU H200 est identique à celui du H100, mais il utilise partout des piles de mémoire de 24 Go plus rapides.

L’accélérateur H200 de NVIDIA repose sur le même silicium que le H100 141GB, mais il ne s’agit pas d’un nouveau silicium, contrairement à ce que le site web de Nvidia peut laisser entendre.
Interrogation sur la possibilité que d’autres fabricants de puces rattrapent ou dépassent NVIDIA dans l’IA dans les prochaines années.

Questionnement sur le fait de savoir si le leadership et l’expertise de NVIDIA dans l’IA pourraient être remis en cause par d’autres fabricants de puces dans les prochaines années, ou si leur avance est hors d’atteinte.
Les gains de performance de NVIDIA en si peu de temps sont impressionnants, mais il y a un besoin ressenti d’autres concurrents dans ce domaine.

Impression face aux progrès de performance réalisés par NVIDIA en peu de temps, avec l’espoir de voir émerger d’autres concurrents comme AMD sur ce marché.
Question sur les métriques utilisées pour l’inférence et sur le fait de savoir s’il faut aussi s’attendre à des gains de performance similaires pour l’entraînement.

Les métriques de performance mentionnées concernent surtout la phase d’inférence des modèles d’IA, d’où la question de savoir si l’on peut aussi observer des gains comparables pendant la phase d’entraînement.
Question sur le positionnement du H200 par rapport au B100, qui sort la même année.

Interrogation sur le rôle et le prix du H200 si le B100 sort la même année avec des performances deux fois supérieures.
Choc face au prix du GPU H100 et question sur le coût de son utilisation pour des expérimentations personnelles et des hackathons.

Surprise face au prix très élevé du GPU H100 pour des expérimentations personnelles et des hackathons, et question sur le prix du H200.
Sur mobile, les bannières de cookies et de publicité réduisent énormément l’espace réellement visible sur les pages web.

Signalement du fait qu’en environnement mobile, les bannières de cookies et les publicités réduisent la zone réellement visible d’une page web à un quart de l’écran.
Aucune explication du terme « GPU », et aucune fonction de sortie vidéo intégrée.

Mention du fait que le GPU n’intègre en réalité aucune fonction de sortie vidéo.
Demande d’explication sur ce que montre la photo, avec l’impression que cela ressemble à une ville ou un bâtiment sorti de Blade Runner.

La composition visible sur la photo est difficile à comprendre, d’où une demande d’explication, avec l’impression qu’elle ressemble à une ville ou à un bâtiment de Blade Runner.
Question sur la limite de la vitesse d’inférence : problème de bande passante mémoire ou de capacité de calcul.

Interrogation sur le fait de savoir si le facteur limitant de la vitesse d’inférence des modèles d’IA est la bande passante mémoire ou la puissance de calcul.