- Inclut le compilateur de deep learning TensorRT, des kernels optimisés, les étapes de prétraitement/post-traitement, ainsi que les composants de base pour la communication multi-GPU/multi-nœud
- Permet de fournir rapidement des performances maximales et des fonctions de personnalisation pour les LLM, même sans connaissance approfondie de C++ ou de CUDA
- Fournit une API Python modulaire en open source, pour une meilleure facilité d’utilisation et extensibilité
- Prend en charge les GPU Ampere, Lovelace et Hopper
- Lors de tests basés sur le H100 avec TensorRT-LLM appliqué
- GPT-J-6B : performances d’inférence multipliées par 8, TCO réduit de 5,3 fois, consommation d’énergie réduite de 5,6 fois
- Llama2 70B : performances d’inférence multipliées par 4,6, TCO réduit de 3 fois, consommation d’énergie réduite de 3,2 fois
- Inclut une technologie de planification optimisée appelée In-flight Batching
- Le GPU NVIDIA H100 équipé de TensorRT-LLM permet aux utilisateurs de convertir facilement les poids du modèle vers le nouveau format FP8, puis de compiler le modèle afin d’exploiter automatiquement des kernels FP8 optimisés
- Cela est possible grâce à la technologie Hopper Transformer Engine, sans nécessiter de modification du code du modèle
- Disponible actuellement en early access, avec une sortie prévue dans quelques semaines
Aucun commentaire pour le moment.