MiniLLM - Exécuter des LLM sur un GPU personnel
(github.com/kuleshov)- Un système minimal pour exécuter les derniers LLM sur des GPU Nvidia grand public
- Prend en charge plusieurs LLM (LLAMA, BLOOM, OPT) jusqu'à 170B de paramètres
- Compatible avec différents types de GPU Nvidia
- Petit code Python facile à utiliser
- Utilise en interne l'algorithme GPTQ pour la compression en 3 bits afin de minimiser l'utilisation de la mémoire GPU
Aucun commentaire pour le moment.