NVIDIA publie en open source TensorRT-LLM, qui accélère l’inférence des LLM

xguru · 2023-09-13T10:17:02+09:00

Inclut le compilateur de deep learning TensorRT, des kernels optimisés, les étapes de prétraitement/post-traitement, ainsi que les composants de base pour la communication multi-GPU/multi-nœud Permet de fournir rapidement des performances maximales et des fonctions de personnalisation pour les LLM, même sans connaissance approfondie de C++ ou de CUDA Fournit une API Python modulaire en open source, pour une meilleure facilité d’utilisation et extensibilité Prend en charge les GPU Ampere, Lovelace et Hopper Lors de tests basés sur le H100 avec TensorRT-LLM appliqué GPT-J-6B : performances d’inférence multipliées par 8, TCO réduit de 5,3 fois, consommation d’énergie réduite de 5,6 fois Llama2 70B : performances d’inférence multipliées par 4,6, TCO réduit de 3 fois, consommation d’énergie réduite de 3,2 fois Inclut une technologie de planification optimisée appelée In-flight Batching Le GPU NVIDIA H100 équipé de TensorRT-LLM permet aux utilisateurs de convertir facilement les poids du modèle vers le nouveau format FP8, puis de compiler le modèle afin d’exploiter automatiquement des kernels FP8 optimisés Cela est possible grâce à la technologie Hopper Transformer Engine, sans nécessiter de modification du code du modèle Disponible actuellement en early access, avec une sortie prévue dans quelques semaines

(developer.nvidia.com)

9 points par xguru 2023-09-13 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Inclut le compilateur de deep learning TensorRT, des kernels optimisés, les étapes de prétraitement/post-traitement, ainsi que les composants de base pour la communication multi-GPU/multi-nœud
Permet de fournir rapidement des performances maximales et des fonctions de personnalisation pour les LLM, même sans connaissance approfondie de C++ ou de CUDA
Fournit une API Python modulaire en open source, pour une meilleure facilité d’utilisation et extensibilité
Prend en charge les GPU Ampere, Lovelace et Hopper
Lors de tests basés sur le H100 avec TensorRT-LLM appliqué
- GPT-J-6B : performances d’inférence multipliées par 8, TCO réduit de 5,3 fois, consommation d’énergie réduite de 5,6 fois
- Llama2 70B : performances d’inférence multipliées par 4,6, TCO réduit de 3 fois, consommation d’énergie réduite de 3,2 fois
Inclut une technologie de planification optimisée appelée In-flight Batching
Le GPU NVIDIA H100 équipé de TensorRT-LLM permet aux utilisateurs de convertir facilement les poids du modèle vers le nouveau format FP8, puis de compiler le modèle afin d’exploiter automatiquement des kernels FP8 optimisés
- Cela est possible grâce à la technologie Hopper Transformer Engine, sans nécessiter de modification du code du modèle
Disponible actuellement en early access, avec une sortie prévue dans quelques semaines

NVIDIA publie en open source TensorRT-LLM, qui accélère l’inférence des LLM

À lire aussi

Aucun commentaire pour le moment.