AITemplate - framework Python qui convertit les réseaux neuronaux profonds en code C++ CUDA/HIP haute performance

(github.com/facebookincubator)

11 points par xguru 2023-06-10 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Convertit les réseaux neuronaux profonds en code C++ CUDA (GPU NVIDIA) / HIP (GPU AMD) pour une inférence rapide
Atteint des performances proches du roofline fp16 TensorCore/MatrixCore sur des modèles majeurs comme ResNet, BERT, VisionTransformer et Stable Diffusion
Open source unifié, ouvert et flexible
Excellente rétrocompatibilité (sans dépendance à des bibliothèques/runtime tiers). Chaque modèle est compilé en binaire portable
Horizontal Fusion / Vertical Fusion / Memory Fusion
Fonctionne avec ou sans PyTorch

À lire aussi