- Prise en charge de nouveaux modèles
- Llama 3 : le nouveau modèle de Meta, et à ce jour le LLM ouvert le plus performant
- Phi 3 Mini : le nouveau modèle ouvert léger de Microsoft, doté de 3,8 milliards de paramètres
- Moondream : un petit modèle vision-langage conçu pour fonctionner efficacement sur des appareils edge
- Dolphin Llama 3 : un modèle non censuré entraîné par Eric Hartford sur la base de Llama 3. Inclut diverses capacités pour l’apprentissage, la conversation et le code
- Qwen 110B : un modèle de taille 100B paramètres ayant montré d’excellentes performances dans les évaluations (Alibaba)
- Corrections de bugs
- Correction d’un problème où l’API se bloquait parce qu’un modèle ne se terminait pas
- Correction d’une erreur de mémoire insuffisante sur les Mac Apple Silicon
- Correction d’une erreur de mémoire insuffisante lors de l’exécution de modèles avec l’architecture Mixtral
- Fonctionnalités expérimentales de concurrence
OLLAMA_NUM_PARALLEL : traiter plusieurs requêtes simultanément pour un même modèle
OLLAMA_MAX_LOADED_MODELS : charger plusieurs modèles en même temps
- Nécessite de définir des variables d’environnement
OLLAMA_NUM_PARALLEL=4 OLLAMA_MAX_LOADED_MODELS=4 ollama serve
1 commentaires
J’avais besoin d’utiliser plusieurs modèles, et maintenant c’est possible. ^^=b