glhf - Exécuter (presque) tous les modèles de langage

xguru · 2024-07-29T10:06:01+09:00

Exécute presque tous les grands modèles de langage open source avec vLLM et un ordonnanceur GPU à autoscaling développé en interne Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3, etc. Fonctionne simplement en collant un lien de dépôt Hugging Face, sans configuration particulière : tous les dépôts full-weight et 4-bit AWQ Jusqu’à 8 GPU Nvidia A100 80Gb disponibles Gratuit pendant la bêta. Même après la bêta, le service fonctionnera en multitenant, ce qui devrait le rendre plus avantageux que les principaux tarifs cloud pour les GPU

(glhf.chat)

5 points par xguru 2024-07-29 | 2 commentaires | Partager sur WhatsApp

Exécute presque tous les grands modèles de langage open source avec vLLM et un ordonnanceur GPU à autoscaling développé en interne
- Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3, etc.
Fonctionne simplement en collant un lien de dépôt Hugging Face, sans configuration particulière : tous les dépôts full-weight et 4-bit AWQ
Jusqu’à 8 GPU Nvidia A100 80Gb disponibles
Gratuit pendant la bêta. Même après la bêta, le service fonctionnera en multitenant, ce qui devrait le rendre plus avantageux que les principaux tarifs cloud pour les GPU

2 commentaires

wedding 2024-07-30

Je me demandais comment utiliser llama 405b, mais c'est rapide et la qualité est bonne.

xguru 2024-07-29

vLLM : service de LLM simple, rapide et économique grâce à PagedAttention

glhf - Exécuter (presque) tous les modèles de langage

À lire aussi

2 commentaires