5 points par xguru 2023-12-20 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • AMD a récemment présenté l’accélérateur graphique MI300X, en affirmant des performances jusqu’à 1,6 fois supérieures à celles du H100 de Nvidia
    • Nvidia a répliqué qu’AMD n’avait pas utilisé ses propres optimisations lors de la comparaison avec le H100
  • AMD a souligné que Nvidia montrait uniquement des performances de débit qui ne reproduisent pas les conditions réelles, sans tenir compte de la latence fréquemment observée dans les charges de travail serveur
    • AMD affirme aussi que Nvidia a benchmarké un ensemble sélectif de charges de travail d’inférence en utilisant son TensorRT-LLM interne pour le H100
  • AMD indique avoir réalisé ses tests avec le très utilisé vLLM et le type de données FP16, en insistant sur le fait que vLLM ne prend pas en charge le FP8
  • AMD critique Nvidia pour avoir présenté des performances de débit sans refléter un environnement serveur réel et sans prendre la latence en compte

Résultats de tests mis à jour d’AMD, avec optimisations et prise en compte de la latence

  • AMD a effectué trois tests de performance en utilisant TensorRT-LLM de Nvidia
  • Premier test : les deux entreprises sont comparées avec vLLM sur un jeu de données FP16 : le MI300X est 2,1 fois plus rapide
  • Deuxième test : comparaison des performances du MI300X avec vLLM face à TensorRT-LLM : le MI300X est 1,3 fois plus rapide
  • Troisième test : comparaison entre vLLM (FP16) sur MI300X et TensorRT-LLM (FP8) : 1,7 seconde contre 1,6 seconde, le H100 étant légèrement plus rapide
  • AMD reconnaît également que, pour utiliser le FP8, il faut adopter le système fermé de TensorRT-LLM, abandonner le FP16 et, en pratique, renoncer définitivement à vLLM

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.