- Exécute presque tous les grands modèles de langage open source avec vLLM et un ordonnanceur GPU à autoscaling développé en interne
- Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3, etc.
- Fonctionne simplement en collant un lien de dépôt Hugging Face, sans configuration particulière : tous les dépôts full-weight et 4-bit AWQ
- Jusqu’à 8 GPU Nvidia A100 80Gb disponibles
- Gratuit pendant la bêta. Même après la bêta, le service fonctionnera en multitenant, ce qui devrait le rendre plus avantageux que les principaux tarifs cloud pour les GPU
2 commentaires
Je me demandais comment utiliser llama 405b, mais c'est rapide et la qualité est bonne.
vLLM : service de LLM simple, rapide et économique grâce à PagedAttention