5 points par xguru 2024-07-29 | 2 commentaires | Partager sur WhatsApp
  • Exécute presque tous les grands modèles de langage open source avec vLLM et un ordonnanceur GPU à autoscaling développé en interne
    • Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3, etc.
  • Fonctionne simplement en collant un lien de dépôt Hugging Face, sans configuration particulière : tous les dépôts full-weight et 4-bit AWQ
  • Jusqu’à 8 GPU Nvidia A100 80Gb disponibles
  • Gratuit pendant la bêta. Même après la bêta, le service fonctionnera en multitenant, ce qui devrait le rendre plus avantageux que les principaux tarifs cloud pour les GPU

2 commentaires

 
wedding 2024-07-30

Je me demandais comment utiliser llama 405b, mais c'est rapide et la qualité est bonne.