- Bibliothèque d’inférence conçue pour exécuter des LLM locaux sur des GPU comme les 3090/4090
- Il s’agit d’une première version, et le code est encore en phase de test ; certaines fonctionnalités importantes ne sont pas encore implémentées
- Par rapport à la V1, ExLlamaV2 offre des kernels plus rapides et de meilleure qualité, une base de code plus propre et plus variée, ainsi que la prise en charge de nouveaux formats de quantification
- Repose sur l’extension Torch C++ pour les fonctions CUDA, compilée à l’exécution. Lors de la première utilisation de la bibliothèque, cela prend 10 à 20 secondes, mais l’extension est ensuite mise en cache pour les utilisations suivantes
- Prend en charge les mêmes modèles GPTQ 4 bits que la V1, mais aussi le nouveau format "EXL2", qui permet de mélanger les niveaux de quantification au sein d’un même modèle afin d’atteindre un débit binaire moyen de 2 à 8 bits
- Le choix des paramètres de quantification est effectué automatiquement, et des scripts sont fournis pour quantifier les modèles
- Il est également mentionné que plusieurs modèles quantifiés en EXL2 ont été mis en ligne sur HuggingFace afin que les utilisateurs puissent les tester
- Les projets à venir incluent un package PyPi avec des extensions précompilées, la prise en charge de LoRA, une interface web d’exemple, un serveur web et davantage de samplers
1 commentaires
Discussion sur Hacker News