- Fournit une API de streaming compatible avec OpenAI pour les modèles de génération de texte basés sur Hugging Face Transformer
- Permet d’utiliser d’autres LLM comme le service d’OpenAI
- Prend en charge la génération en streaming avec diverses stratégies de décodage
- Compatible à la fois avec les modèles decoder-only et encoder-decoder
- Detokenizer prenant en charge les surrogates et les espaces blancs
- Option de quantization disponible. Prise en charge du multi-GPU
- Affichage de la progression en temps réel via SSE (Server-Sent Events)
Aucun commentaire pour le moment.