La puce Gaudi 2 d’Intel dépasse la Nvidia H100 dans les benchmarks du Diffusion Transformer

xguru · 2024-03-12T10:46:01+09:00

La série « Behind the Compute » est une série d’articles de blog qui retrace le parcours de Stability AI et fournit des analyses pour aider d’autres acteurs à exploiter la puissance de l’IA générative Cet épisode explore plus en profondeur les benchmarks de performance et les avantages de différentes solutions de calcul Analyse des performances Une analyse des performances a été menée en entraînant deux modèles, dont l’un est le très attendu Stable Diffusion 3 La vitesse d’entraînement a été mesurée en comparant les accélérateurs Intel Gaudi 2 aux Nvidia A100 et H100 Ce sont les options les plus couramment choisies par les startups et les développeurs pour entraîner des grands modèles de langage Modèle 1 : Stable Diffusion 3 Stable Diffusion 3 est le modèle texte-vers-image le plus performant de la gamme, et il devrait bientôt entrer en phase d’aperçu initial La version publique de Stable Diffusion 3 sera proposée dans une gamme allant de 800M à 8B de paramètres L’analyse menée sur la version à 2B de paramètres a montré des résultats supérieurs aux attentes Le débit d’entraînement du modèle d’architecture 2B Multimodal Diffusion Transformer (MMDiT) a été mesuré avec d=24, une précision mixte BFloat16 et une attention optimisée (xFormers pour A100 et FusedSDPA pour Intel Gaudi) Cette version du modèle est appelée MMDiT-ps2-d24 En observant les résultats du benchmark d’entraînement sur 2 nœuds, soit 16 accélérateurs au total (Gaudi/GPU), le système Gaudi 2 a traité 927 images d’entraînement par seconde en maintenant une taille de batch de 16 par accélérateur — soit 1,5 fois plus rapide que le H100-80GB En exploitant les 96GB de mémoire à large bande passante (HBM2E) du Gaudi 2, la taille de batch par accélérateur a été portée à 32, ce qui a encore amélioré la vitesse d’entraînement à 1 254 images par seconde Des performances très compétitives ont continué à être mesurées en étendant l’entraînement distribué à 32 nœuds Gaudi 2, soit 256 accélérateurs au total Dans cette configuration, le cluster Gaudi 2 a traité plus de 3 fois plus d’images par seconde que les GPU A100-80GB. C’est impressionnant malgré la pile logicielle très optimisée de l’A100 Dans les tests d’inférence sur le modèle Stable Diffusion 3 de 8B de paramètres, la puce Gaudi 2 a offert une vitesse d’inférence similaire à celle de la puce Nvidia A100 avec PyTorch natif Cependant, grâce aux optimisations TensorRT, la puce A100 a généré des images 40 % plus vite que le Gaudi 2 Avec des optimisations supplémentaires, il est prévu que le Gaudi 2 dépasse bientôt l’A100 sur ce modèle Lors de tests précédents avec PyTorch natif, le Gaudi 2 a généré des images 1024x1024 en 30 étapes en seulement 3,2 secondes, contre 3,6 secondes sur l’A100 avec PyTorch et 2,7 secondes avec TensorRT Grâce à sa mémoire plus importante, à son interconnexion plus rapide et à d’autres choix de conception, le Gaudi 2 se montre compétitif pour exécuter l’architecture Diffusion Transformer qui sous-tend la prochaine génération de modèles multimédias Modèle 2 : Stable Beluga 2.5 70B Stable Beluga 2.5 70B est une version fine-tunée de LLaMA 2 70B, basée sur Stable Beluga 2, le premier modèle open à avoir dépassé ChatGPT 3.5 sur certains benchmarks Ce benchmark d’entraînement a été exécuté sur 256 accélérateurs Gaudi 2, et en lançant le code PyTorch tel quel, sans optimisation supplémentaire, un débit total moyen de 116 777 tokens/s a été mesuré Cela utilise le type de données FP16, une taille de batch globale de 1024, 2 étapes d’accumulation de gradient et une micro-batch size de 2 Lors des tests d’inférence sur le modèle de langage 70B avec Gaudi 2, 673 tokens/s par accélérateur ont été générés avec une taille de token d’entrée de 128 et une taille de token de sortie de 2048 Comparé à TensorRT-LLM, le Gaudi 2 est 28 % plus rapide que l’A100, qui atteint 525 tokens/s Des gains de vitesse supplémentaires sont attendus avec le FP8 Demande pour les solutions de calcul Des entreprises comme la nôtre constatent une demande croissante pour des solutions de calcul toujours plus puissantes et plus efficaces Nos résultats soulignent la nécessité d’alternatives comme le Gaudi 2, qui ne se contente pas d’offrir de meilleures performances que d’autres puces en 7 nm, mais répond aussi à des besoins majeurs du marché comme un meilleur rapport performance/prix, un coût plus bas et des délais d’approvisionnement réduits La possibilité de choisir parmi différentes options de calcul élargit la participation et l’innovation, et rend les technologies d’IA avancées plus accessibles à tous

(stability.ai)

6 points par xguru 2024-03-12 | 1 commentaires | Partager sur WhatsApp

La série « Behind the Compute » est une série d’articles de blog qui retrace le parcours de Stability AI et fournit des analyses pour aider d’autres acteurs à exploiter la puissance de l’IA générative
Cet épisode explore plus en profondeur les benchmarks de performance et les avantages de différentes solutions de calcul

Analyse des performances

Une analyse des performances a été menée en entraînant deux modèles, dont l’un est le très attendu Stable Diffusion 3
La vitesse d’entraînement a été mesurée en comparant les accélérateurs Intel Gaudi 2 aux Nvidia A100 et H100
Ce sont les options les plus couramment choisies par les startups et les développeurs pour entraîner des grands modèles de langage

Modèle 1 : Stable Diffusion 3

Stable Diffusion 3 est le modèle texte-vers-image le plus performant de la gamme, et il devrait bientôt entrer en phase d’aperçu initial
La version publique de Stable Diffusion 3 sera proposée dans une gamme allant de 800M à 8B de paramètres
L’analyse menée sur la version à 2B de paramètres a montré des résultats supérieurs aux attentes
Le débit d’entraînement du modèle d’architecture 2B Multimodal Diffusion Transformer (MMDiT) a été mesuré avec d=24, une précision mixte BFloat16 et une attention optimisée (xFormers pour A100 et FusedSDPA pour Intel Gaudi)
Cette version du modèle est appelée MMDiT-ps2-d24
En observant les résultats du benchmark d’entraînement sur 2 nœuds, soit 16 accélérateurs au total (Gaudi/GPU), le système Gaudi 2 a traité 927 images d’entraînement par seconde en maintenant une taille de batch de 16 par accélérateur — soit 1,5 fois plus rapide que le H100-80GB
En exploitant les 96GB de mémoire à large bande passante (HBM2E) du Gaudi 2, la taille de batch par accélérateur a été portée à 32, ce qui a encore amélioré la vitesse d’entraînement à 1 254 images par seconde
Des performances très compétitives ont continué à être mesurées en étendant l’entraînement distribué à 32 nœuds Gaudi 2, soit 256 accélérateurs au total
Dans cette configuration, le cluster Gaudi 2 a traité plus de 3 fois plus d’images par seconde que les GPU A100-80GB. C’est impressionnant malgré la pile logicielle très optimisée de l’A100
Dans les tests d’inférence sur le modèle Stable Diffusion 3 de 8B de paramètres, la puce Gaudi 2 a offert une vitesse d’inférence similaire à celle de la puce Nvidia A100 avec PyTorch natif
Cependant, grâce aux optimisations TensorRT, la puce A100 a généré des images 40 % plus vite que le Gaudi 2
Avec des optimisations supplémentaires, il est prévu que le Gaudi 2 dépasse bientôt l’A100 sur ce modèle
Lors de tests précédents avec PyTorch natif, le Gaudi 2 a généré des images 1024x1024 en 30 étapes en seulement 3,2 secondes, contre 3,6 secondes sur l’A100 avec PyTorch et 2,7 secondes avec TensorRT
Grâce à sa mémoire plus importante, à son interconnexion plus rapide et à d’autres choix de conception, le Gaudi 2 se montre compétitif pour exécuter l’architecture Diffusion Transformer qui sous-tend la prochaine génération de modèles multimédias

Modèle 2 : Stable Beluga 2.5 70B

Stable Beluga 2.5 70B est une version fine-tunée de LLaMA 2 70B, basée sur Stable Beluga 2, le premier modèle open à avoir dépassé ChatGPT 3.5 sur certains benchmarks
Ce benchmark d’entraînement a été exécuté sur 256 accélérateurs Gaudi 2, et en lançant le code PyTorch tel quel, sans optimisation supplémentaire, un débit total moyen de 116 777 tokens/s a été mesuré
Cela utilise le type de données FP16, une taille de batch globale de 1024, 2 étapes d’accumulation de gradient et une micro-batch size de 2
Lors des tests d’inférence sur le modèle de langage 70B avec Gaudi 2, 673 tokens/s par accélérateur ont été générés avec une taille de token d’entrée de 128 et une taille de token de sortie de 2048
Comparé à TensorRT-LLM, le Gaudi 2 est 28 % plus rapide que l’A100, qui atteint 525 tokens/s
Des gains de vitesse supplémentaires sont attendus avec le FP8

Demande pour les solutions de calcul

Des entreprises comme la nôtre constatent une demande croissante pour des solutions de calcul toujours plus puissantes et plus efficaces
Nos résultats soulignent la nécessité d’alternatives comme le Gaudi 2, qui ne se contente pas d’offrir de meilleures performances que d’autres puces en 7 nm, mais répond aussi à des besoins majeurs du marché comme un meilleur rapport performance/prix, un coût plus bas et des délais d’approvisionnement réduits
La possibilité de choisir parmi différentes options de calcul élargit la participation et l’innovation, et rend les technologies d’IA avancées plus accessibles à tous

1 commentaires

xguru 2024-03-12

Commentaires Hacker News

Il est intéressant de constater que les TPU battent facilement les A100. Chez dreamlook.ai, qui propose du fine-tuning de Stable Diffusion à l’aide de TPU, les gens sont surpris par la vitesse de livraison et le coût. Mais il n’y a pas de grand secret : ils utilisent simplement un matériel plus rapide et moins cher par unité de travail.
Favoriser la concurrence sur le matériel pour l’entraînement des modèles est une bonne chose, mais la disponibilité de ces machines reste très limitée. Les principaux fournisseurs cloud ne permettent pas de louer des VM Gaudi2 à l’heure, et le site d’Intel lui-même renvoie vers l’achat d’un serveur 8x GPU à plus de 40k USD. Pour l’instant, Nvidia garde encore l’avantage en matière de stack logicielle et de disponibilité, mais cela pourrait commencer à changer d’ici la fin de l’année.
NVIDIA réalise près de 92 % de marge sur le H100. Il est surprenant que davantage d’entreprises de puces ne se soient pas lancées dans le domaine des « accélérateurs ML ».
Une analyse expliquant comment cela peut être 3 fois plus rapide alors que les métriques matérielles ne sont pas 3 fois meilleures serait réellement utile et éclairante. Sinon, cela ne reste qu’une simple publicité.
Le H100 est sorti il y a presque un an, donc si Intel est prêt à rivaliser avec le modèle de l’an dernier, c’est correct. Il faut se rappeler que CUDA est une pièce très importante, et qu’il faut 10 ans pour faire mûrir ensemble le matériel et le logiciel.
Le H100 est déjà expédié en volume depuis environ un an. Le Gaudi2 est-il disponible à une échelle comparable ? Tant que NVIDIA n’échoue pas à conserver une avance nette sur les composants concurrents à période comparable, il ne faut jamais écarter NVIDIA.
Personne, y compris des employés d’Intel AXG, n’a pu donner de réponse satisfaisante sur la raison d’être simultanée de Gaudi et de Ponte Vecchio. Intel n’aurait-il pas plus de chances de réussir en se concentrant sur une seule ligne de produits ?
Je me demande comment travaillent les chercheurs en IA de nos jours. Modifient-ils vraiment des Cudakernels à la main, ou assemblent-ils des modèles avec des toolkits de haut niveau comme pytorch ? Si c’est la seconde option, alors si pytorch fournit des backends optimisés pour différents matériels, CUDA est-il réellement un obstacle aussi important ?