14 points par xguru 2023-02-22 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Un moteur de génération hautes performances permettant d’exécuter des LLM dans des environnements GPU limités comme un T4 16 Go ou une RTX3090 24 Go
  • Grâce à un offloading extrêmement rapide, jusqu’à environ 100x, il est possible d’exécuter un modèle 175B sur un seul GPU
  • Compression maximale des paramètres et du cache d’attention (jusqu’à 4 bits avec une perte de précision quasi nulle)
  • Extensible facilement à l’ajout de GPU grâce à un runtime parallèle distribué

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.