- La série « Behind the Compute » est une série d’articles de blog qui retrace le parcours de Stability AI et fournit des analyses pour aider d’autres acteurs à exploiter la puissance de l’IA générative
- Cet épisode explore plus en profondeur les benchmarks de performance et les avantages de différentes solutions de calcul
Analyse des performances
- Une analyse des performances a été menée en entraînant deux modèles, dont l’un est le très attendu Stable Diffusion 3
- La vitesse d’entraînement a été mesurée en comparant les accélérateurs Intel Gaudi 2 aux Nvidia A100 et H100
- Ce sont les options les plus couramment choisies par les startups et les développeurs pour entraîner des grands modèles de langage
Modèle 1 : Stable Diffusion 3
- Stable Diffusion 3 est le modèle texte-vers-image le plus performant de la gamme, et il devrait bientôt entrer en phase d’aperçu initial
- La version publique de Stable Diffusion 3 sera proposée dans une gamme allant de 800M à 8B de paramètres
- L’analyse menée sur la version à 2B de paramètres a montré des résultats supérieurs aux attentes
- Le débit d’entraînement du modèle d’architecture 2B Multimodal Diffusion Transformer (MMDiT) a été mesuré avec d=24, une précision mixte BFloat16 et une attention optimisée (
xFormers pour A100 et FusedSDPA pour Intel Gaudi)
- Cette version du modèle est appelée MMDiT-ps2-d24
- En observant les résultats du benchmark d’entraînement sur 2 nœuds, soit 16 accélérateurs au total (Gaudi/GPU), le système Gaudi 2 a traité 927 images d’entraînement par seconde en maintenant une taille de batch de 16 par accélérateur — soit 1,5 fois plus rapide que le H100-80GB
- En exploitant les 96GB de mémoire à large bande passante (HBM2E) du Gaudi 2, la taille de batch par accélérateur a été portée à 32, ce qui a encore amélioré la vitesse d’entraînement à 1 254 images par seconde
- Des performances très compétitives ont continué à être mesurées en étendant l’entraînement distribué à 32 nœuds Gaudi 2, soit 256 accélérateurs au total
- Dans cette configuration, le cluster Gaudi 2 a traité plus de 3 fois plus d’images par seconde que les GPU A100-80GB. C’est impressionnant malgré la pile logicielle très optimisée de l’A100
- Dans les tests d’inférence sur le modèle Stable Diffusion 3 de 8B de paramètres, la puce Gaudi 2 a offert une vitesse d’inférence similaire à celle de la puce Nvidia A100 avec PyTorch natif
- Cependant, grâce aux optimisations TensorRT, la puce A100 a généré des images 40 % plus vite que le Gaudi 2
- Avec des optimisations supplémentaires, il est prévu que le Gaudi 2 dépasse bientôt l’A100 sur ce modèle
- Lors de tests précédents avec PyTorch natif, le Gaudi 2 a généré des images 1024x1024 en 30 étapes en seulement 3,2 secondes, contre 3,6 secondes sur l’A100 avec PyTorch et 2,7 secondes avec TensorRT
- Grâce à sa mémoire plus importante, à son interconnexion plus rapide et à d’autres choix de conception, le Gaudi 2 se montre compétitif pour exécuter l’architecture Diffusion Transformer qui sous-tend la prochaine génération de modèles multimédias
Modèle 2 : Stable Beluga 2.5 70B
- Stable Beluga 2.5 70B est une version fine-tunée de LLaMA 2 70B, basée sur Stable Beluga 2, le premier modèle open à avoir dépassé ChatGPT 3.5 sur certains benchmarks
- Ce benchmark d’entraînement a été exécuté sur 256 accélérateurs Gaudi 2, et en lançant le code PyTorch tel quel, sans optimisation supplémentaire, un débit total moyen de 116 777 tokens/s a été mesuré
- Cela utilise le type de données FP16, une taille de batch globale de 1024, 2 étapes d’accumulation de gradient et une micro-batch size de 2
- Lors des tests d’inférence sur le modèle de langage 70B avec Gaudi 2, 673 tokens/s par accélérateur ont été générés avec une taille de token d’entrée de 128 et une taille de token de sortie de 2048
- Comparé à TensorRT-LLM, le Gaudi 2 est 28 % plus rapide que l’A100, qui atteint 525 tokens/s
- Des gains de vitesse supplémentaires sont attendus avec le FP8
Demande pour les solutions de calcul
- Des entreprises comme la nôtre constatent une demande croissante pour des solutions de calcul toujours plus puissantes et plus efficaces
- Nos résultats soulignent la nécessité d’alternatives comme le Gaudi 2, qui ne se contente pas d’offrir de meilleures performances que d’autres puces en 7 nm, mais répond aussi à des besoins majeurs du marché comme un meilleur rapport performance/prix, un coût plus bas et des délais d’approvisionnement réduits
- La possibilité de choisir parmi différentes options de calcul élargit la participation et l’innovation, et rend les technologies d’IA avancées plus accessibles à tous
1 commentaires
Commentaires Hacker News