Shimmy - un serveur API OpenAI léger, centré sur la confidentialité personnelle, capable de remplacer Ollama
(github.com/Michael-A-Kuykendall)- Un outil conçu pour exécuter des LLM entièrement hors ligne en local, proposé sous la forme d’un binaire unique de 4,8 Mo, 142 fois plus petit qu’Ollama
- 100 % compatible avec l’API OpenAI, ce qui permet de connecter tels quels des outils de développement existants comme Python, Node.js, VSCode Copilot, Cursor ou Continue.dev
- Une architecture sans configuration (Zero-Config) qui fonctionne immédiatement après l’installation
- Découverte automatique des modèles depuis Hugging Face, Ollama, des répertoires locaux, etc.
- Prise en charge de l’attribution automatique des ports et de la détection des adaptateurs LoRA
- Une inférence hybride CPU/GPU basée sur le MOE (Mixture of Experts) qui permet d’exécuter sur un PC ordinaire des grands modèles de plus de 70B
- Grâce au déchargement sur CPU et à une répartition intelligente des couches, l’exécution reste stable même lorsque la VRAM est insuffisante
- Contrôle fin possible avec les options
--cpu-moeet--n-cpu-moe
- Prise en charge de nombreux backends pour l’accélération GPU, notamment CUDA, Vulkan, OpenCL et MLX (Apple Silicon)
- Détection automatique à l’exécution, avec bascule automatique sur le CPU en l’absence de GPU
- Une architecture asynchrone basée sur Rust + Tokio, garantissant hautes performances et stabilité mémoire
- Utilise le backend llama.cpp, avec compatibilité avec les modèles GGUF
- Inclut notamment un cache LRU, un équilibrage de charge automatique et une supervision intégrée avec Prometheus
- Une conception axée sur la sécurité et la confidentialité
- Les données et le code ne quittent pas la machine locale
- Aucun besoin de clé API, d’abonnement ou de facturation au token
- Fourni gratuitement à vie sous licence MIT : « FREE now, FREE forever »
5 commentaires
J’ai testé le coréen, l’anglais, le chinois et même le japonais, mais il y a visiblement un problème avec le traitement du japonais pour le moment.
De toute façon, si le backend est
llama.cpp, est-ce qu’on peut vraiment appeler ça sans dépendances…Waouh, c’est vraiment énorme 😱 Il faut que j’essaie ça tout de suite.
Waouh
On voit que Claude et Copilot sont tous les deux listés parmi les contributeurs.