9 points par xguru 2023-09-13 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Inclut le compilateur de deep learning TensorRT, des kernels optimisés, les étapes de prétraitement/post-traitement, ainsi que les composants de base pour la communication multi-GPU/multi-nœud
  • Permet de fournir rapidement des performances maximales et des fonctions de personnalisation pour les LLM, même sans connaissance approfondie de C++ ou de CUDA
  • Fournit une API Python modulaire en open source, pour une meilleure facilité d’utilisation et extensibilité
  • Prend en charge les GPU Ampere, Lovelace et Hopper
  • Lors de tests basés sur le H100 avec TensorRT-LLM appliqué
    • GPT-J-6B : performances d’inférence multipliées par 8, TCO réduit de 5,3 fois, consommation d’énergie réduite de 5,6 fois
    • Llama2 70B : performances d’inférence multipliées par 4,6, TCO réduit de 3 fois, consommation d’énergie réduite de 3,2 fois
  • Inclut une technologie de planification optimisée appelée In-flight Batching
  • Le GPU NVIDIA H100 équipé de TensorRT-LLM permet aux utilisateurs de convertir facilement les poids du modèle vers le nouveau format FP8, puis de compiler le modèle afin d’exploiter automatiquement des kernels FP8 optimisés
    • Cela est possible grâce à la technologie Hopper Transformer Engine, sans nécessiter de modification du code du modèle
  • Disponible actuellement en early access, avec une sortie prévue dans quelques semaines

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.