11 points par xguru 2023-06-10 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Convertit les réseaux neuronaux profonds en code C++ CUDA (GPU NVIDIA) / HIP (GPU AMD) pour une inférence rapide
  • Atteint des performances proches du roofline fp16 TensorCore/MatrixCore sur des modèles majeurs comme ResNet, BERT, VisionTransformer et Stable Diffusion
  • Open source unifié, ouvert et flexible
  • Excellente rétrocompatibilité (sans dépendance à des bibliothèques/runtime tiers). Chaque modèle est compilé en binaire portable
  • Horizontal Fusion / Vertical Fusion / Memory Fusion
  • Fonctionne avec ou sans PyTorch

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.