Shimmy - un serveur API OpenAI léger, centré sur la confidentialité personnelle, capable de remplacer Ollama

xguru · 2025-10-30T09:31:02+09:00

Un outil conçu pour exécuter des LLM entièrement hors ligne en local, proposé sous la forme d’un binaire unique de 4,8 Mo, 142 fois plus petit qu’Ollama 100 % compatible avec l’API OpenAI, ce qui permet de connecter tels quels des outils de développement existants comme Python, Node.js, VSCode Copilot, Cursor ou Continue.dev Une architecture sans configuration (Zero-Config) qui fonctionne immédiatement après l’installation Découverte automatique des modèles depuis Hugging Face, Ollama, des répertoires locaux, etc. Prise en charge de l’attribution automatique des ports et de la détection des adaptateurs LoRA Une inférence hybride CPU/GPU basée sur le MOE (Mixture of Experts) qui permet d’exécuter sur un PC ordinaire des grands modèles de plus de 70B Grâce au déchargement sur CPU et à une répartition intelligente des couches, l’exécution reste stable même lorsque la VRAM est insuffisante Contrôle fin possible avec les options --cpu-moe et --n-cpu-moe Prise en charge de nombreux backends pour l’accélération GPU, notamment CUDA, Vulkan, OpenCL et MLX (Apple Silicon) Détection automatique à l’exécution, avec bascule automatique sur le CPU en l’absence de GPU Une architecture asynchrone basée sur Rust + Tokio, garantissant hautes performances et stabilité mémoire Utilise le backend llama.cpp, avec compatibilité avec les modèles GGUF Inclut notamment un cache LRU, un équilibrage de charge automatique et une supervision intégrée avec Prometheus Une conception axée sur la sécurité et la confidentialité Les données et le code ne quittent pas la machine locale Aucun besoin de clé API, d’abonnement ou de facturation au token Fourni gratuitement à vie sous licence MIT : « FREE now, FREE forever »

(github.com/Michael-A-Kuykendall)

57 points par xguru 2025-10-30 | 5 commentaires | Partager sur WhatsApp

Un outil conçu pour exécuter des LLM entièrement hors ligne en local, proposé sous la forme d’un binaire unique de 4,8 Mo, 142 fois plus petit qu’Ollama
100 % compatible avec l’API OpenAI, ce qui permet de connecter tels quels des outils de développement existants comme Python, Node.js, VSCode Copilot, Cursor ou Continue.dev
Une architecture sans configuration (Zero-Config) qui fonctionne immédiatement après l’installation
- Découverte automatique des modèles depuis Hugging Face, Ollama, des répertoires locaux, etc.
- Prise en charge de l’attribution automatique des ports et de la détection des adaptateurs LoRA
Une inférence hybride CPU/GPU basée sur le MOE (Mixture of Experts) qui permet d’exécuter sur un PC ordinaire des grands modèles de plus de 70B
- Grâce au déchargement sur CPU et à une répartition intelligente des couches, l’exécution reste stable même lorsque la VRAM est insuffisante
- Contrôle fin possible avec les options --cpu-moe et --n-cpu-moe
Prise en charge de nombreux backends pour l’accélération GPU, notamment CUDA, Vulkan, OpenCL et MLX (Apple Silicon)
- Détection automatique à l’exécution, avec bascule automatique sur le CPU en l’absence de GPU
Une architecture asynchrone basée sur Rust + Tokio, garantissant hautes performances et stabilité mémoire
- Utilise le backend llama.cpp, avec compatibilité avec les modèles GGUF
- Inclut notamment un cache LRU, un équilibrage de charge automatique et une supervision intégrée avec Prometheus
Une conception axée sur la sécurité et la confidentialité
- Les données et le code ne quittent pas la machine locale
- Aucun besoin de clé API, d’abonnement ou de facturation au token
Fourni gratuitement à vie sous licence MIT : « FREE now, FREE forever »

5 commentaires

nextstep 2025-11-01

J’ai testé le coréen, l’anglais, le chinois et même le japonais, mais il y a visiblement un problème avec le traitement du japonais pour le moment.

woung717 2025-11-01

De toute façon, si le backend est llama.cpp, est-ce qu’on peut vraiment appeler ça sans dépendances…

tsboard 2025-10-30

Waouh, c’est vraiment énorme 😱 Il faut que j’essaie ça tout de suite.

kimjoin2 2025-10-30

Waouh

mssmss 2025-10-30

On voit que Claude et Copilot sont tous les deux listés parmi les contributeurs.

Shimmy - un serveur API OpenAI léger, centré sur la confidentialité personnelle, capable de remplacer Ollama

À lire aussi

5 commentaires