- Convertit les réseaux neuronaux profonds en code C++ CUDA (GPU NVIDIA) / HIP (GPU AMD) pour une inférence rapide
- Atteint des performances proches du roofline fp16 TensorCore/MatrixCore sur des modèles majeurs comme ResNet, BERT, VisionTransformer et Stable Diffusion
- Open source unifié, ouvert et flexible
- Excellente rétrocompatibilité (sans dépendance à des bibliothèques/runtime tiers). Chaque modèle est compilé en binaire portable
- Horizontal Fusion / Vertical Fusion / Memory Fusion
- Fonctionne avec ou sans PyTorch
Aucun commentaire pour le moment.