- Permet d’utiliser divers LLM via une API REST compatible avec OpenAI
- Fonctionne même sans GPU. Prend en charge l’accélération GPU pour les LLM compatibles avec llama.cpp
- Prend en charge plusieurs modèles, ainsi que la transcription audio, la génération de texte et la génération d’images (Stable Diffusion)
- Une fois chargé, le modèle est conservé en mémoire pour offrir une inférence rapide
- Prend en charge tous les modèles compatibles ggml : llama, gpt4all, rwkv, whisper, vicuna, koala, gpt4all-j, cerebras, falcon, dolly, starcoder,..
Aucun commentaire pour le moment.