ExLlamaV2 : une bibliothèque d’inférence rapide pour exécuter des LLM locaux sur des GPU grand public

(github.com/turboderp)

3 points par GN⁺ 2023-09-14 | 1 commentaires | Partager sur WhatsApp

Bibliothèque d’inférence conçue pour exécuter des LLM locaux sur des GPU comme les 3090/4090
Il s’agit d’une première version, et le code est encore en phase de test ; certaines fonctionnalités importantes ne sont pas encore implémentées
Par rapport à la V1, ExLlamaV2 offre des kernels plus rapides et de meilleure qualité, une base de code plus propre et plus variée, ainsi que la prise en charge de nouveaux formats de quantification
Repose sur l’extension Torch C++ pour les fonctions CUDA, compilée à l’exécution. Lors de la première utilisation de la bibliothèque, cela prend 10 à 20 secondes, mais l’extension est ensuite mise en cache pour les utilisations suivantes
Prend en charge les mêmes modèles GPTQ 4 bits que la V1, mais aussi le nouveau format "EXL2", qui permet de mélanger les niveaux de quantification au sein d’un même modèle afin d’atteindre un débit binaire moyen de 2 à 8 bits
Le choix des paramètres de quantification est effectué automatiquement, et des scripts sont fournis pour quantifier les modèles
Il est également mentionné que plusieurs modèles quantifiés en EXL2 ont été mis en ligne sur HuggingFace afin que les utilisateurs puissent les tester
Les projets à venir incluent un package PyPi avec des extensions précompilées, la prise en charge de LoRA, une interface web d’exemple, un serveur web et davantage de samplers

1 commentaires

GN⁺ 2023-09-14

Discussion sur Hacker News

L’article traite d’Exllamav2, une nouvelle bibliothèque d’inférence permettant d’exécuter des modèles de langage (LLMs) sur des GPU grand public.
Ce serait la première fois que de très grands LLMs peuvent fonctionner à des vitesses compétitives sur des GPU grand public, avec le potentiel de dépasser GPT-3.5-turbo ou GPT-4.
La bibliothèque utilise une méthode originale de quantification de différentes couches ou modules afin de minimiser la perplexité tout en ajustant les paramètres.
Il y a un intérêt pour la comparaison des performances entre différents GPU, comme les 3090 et 4090, et pour voir comment ils gèrent différents modèles.
L’article mentionne aussi l’ajout d’un support ROCm à un stade précoce, ce qui suscite de la curiosité quant à la comparaison entre les RTX4090/3090 et la série 7900.
Les lecteurs s’intéressent aux comparaisons de vitesse et à la façon dont les grands modèles fonctionnent sur du matériel haut de gamme, comme les cartes Nvidia les plus puissantes.
Des questions sont posées sur les performances des modèles qui nécessitent plusieurs cartes pour tenir en mémoire.
L’article a également lancé une discussion sur la sortie dans le subreddit « Local LLaMA ».
Les lecteurs se demandent quel est l’effet de la réduction des modèles à une seule largeur de bit, et s’ils restent fonctionnels ou se mettent à produire du charabia.
Des questions sont posées sur le coût d’ELX2 et sur les benchmarks de perplexité, avec quelques plaintes sur le fait que Facebook ait sorti llama v2 en 70B plutôt qu’en 65B.
Les lecteurs cherchent davantage d’informations sur la quantification EXL2/GPTQ, qui semble être la principale cause du gain de vitesse sur ce modèle.
Des comparaisons sont faites entre « 70B Llama 2 » et ChatGPT 3.5/4.0, avec des questions sur leurs performances respectives.

ExLlamaV2 : une bibliothèque d’inférence rapide pour exécuter des LLM locaux sur des GPU grand public

À lire aussi

1 commentaires

Discussion sur Hacker News