57 points par xguru 2025-10-30 | 5 commentaires | Partager sur WhatsApp
  • Un outil conçu pour exécuter des LLM entièrement hors ligne en local, proposé sous la forme d’un binaire unique de 4,8 Mo, 142 fois plus petit qu’Ollama
  • 100 % compatible avec l’API OpenAI, ce qui permet de connecter tels quels des outils de développement existants comme Python, Node.js, VSCode Copilot, Cursor ou Continue.dev
  • Une architecture sans configuration (Zero-Config) qui fonctionne immédiatement après l’installation
    • Découverte automatique des modèles depuis Hugging Face, Ollama, des répertoires locaux, etc.
    • Prise en charge de l’attribution automatique des ports et de la détection des adaptateurs LoRA
  • Une inférence hybride CPU/GPU basée sur le MOE (Mixture of Experts) qui permet d’exécuter sur un PC ordinaire des grands modèles de plus de 70B
    • Grâce au déchargement sur CPU et à une répartition intelligente des couches, l’exécution reste stable même lorsque la VRAM est insuffisante
    • Contrôle fin possible avec les options --cpu-moe et --n-cpu-moe
  • Prise en charge de nombreux backends pour l’accélération GPU, notamment CUDA, Vulkan, OpenCL et MLX (Apple Silicon)
    • Détection automatique à l’exécution, avec bascule automatique sur le CPU en l’absence de GPU
  • Une architecture asynchrone basée sur Rust + Tokio, garantissant hautes performances et stabilité mémoire
    • Utilise le backend llama.cpp, avec compatibilité avec les modèles GGUF
    • Inclut notamment un cache LRU, un équilibrage de charge automatique et une supervision intégrée avec Prometheus
  • Une conception axée sur la sécurité et la confidentialité
    • Les données et le code ne quittent pas la machine locale
    • Aucun besoin de clé API, d’abonnement ou de facturation au token
  • Fourni gratuitement à vie sous licence MIT : « FREE now, FREE forever »

5 commentaires

 
nextstep 2025-11-01

J’ai testé le coréen, l’anglais, le chinois et même le japonais, mais il y a visiblement un problème avec le traitement du japonais pour le moment.

 
woung717 2025-11-01

De toute façon, si le backend est llama.cpp, est-ce qu’on peut vraiment appeler ça sans dépendances…

 
tsboard 2025-10-30

Waouh, c’est vraiment énorme 😱 Il faut que j’essaie ça tout de suite.

 
kimjoin2 2025-10-30

Waouh

 
mssmss 2025-10-30

On voit que Claude et Copilot sont tous les deux listés parmi les contributeurs.