- Moteur d’inférence permettant d’exécuter des modèles d’IA en local sur les Mac Apple Silicon, en exploitant des kernels de calcul Metal natifs basés sur le framework MLX d’Apple
- Jusqu’à 4,2× plus rapide qu’Ollama en inférence — 180 tok/s pour Phi-4 Mini 14B (soit 3,2× les 56 tok/s d’Ollama), 108 tok/s pour Qwen3.5-9B (soit 2,6× les 41 tok/s d’Ollama)
- TTFT de 0,08 seconde avec cache actif (sur Kimi-Linear-48B), et généralement entre 0,1 et 0,3 seconde sur la plupart des modèles
- 17 parseurs d’appels d’outils intégrés avec détection automatique à partir du nom du modèle — même si un modèle quantifié en 4bit produit un appel d’outil corrompu sous forme de texte, il est automatiquement reconstruit dans un format structuré
- Correspondance optimale des modèles selon la RAM fournie, de 16GB MacBook Air (Qwen3.5-4B, 160 tok/s) à 256GB Mac Studio Ultra (DeepSeek V4 Flash 158B, 31 tok/s, contexte 1M)
- 16GB MacBook Air/Pro : Qwen3.5-4B 4bit → 2.4GB de RAM utilisée, 160 tok/s, compatible chat, code et appels d’outils
- 24GB MacBook Pro : Qwen3.5-9B 4bit → 5.1GB, 108 tok/s, modèle généraliste
- 32GB Mac Mini/Studio : Qwen3.5-27B 4bit (15.3GB, 39 tok/s), Nemotron-Nano 30B 4bit (18GB, 141 tok/s, 100% d’appels d’outils), Qwen3.6-35B-A3B 4bit (20GB, 95 tok/s, 256 experts MoE, contexte 262K)
- 48~64GB : Qwen3.5-35B-A3B 8bit → 37GB, 83 tok/s, meilleur équilibre entre intelligence et rapidité
- 96GB+ : Qwen3.5-122B mxfp4 → 65GB, 57 tok/s, intelligence de niveau frontier
- 128GB+ : DeepSeek V4 Flash 158B-A13B 2-bit DQ → 91GB, 56 tok/s, MoE frontier disponible dès le day-0
- 192~256GB : Qwen3.5-122B 8bit (130GB, 44 tok/s) ou DeepSeek V4 Flash 8-bit (136GB, 31 tok/s, contexte 1M)
- Le 4bit privilégie l’économie mémoire (recommandé dans la plupart des cas), le 8bit une inférence de meilleure qualité, et mxfp4 est un format 4bit de haute qualité
- Fonction de séparation du raisonnement qui isole le processus de raisonnement des modèles chain-of-thought dans un champ
reasoning_content distinct — formats pris en charge : Qwen3, DeepSeek-R1, MiniMax, GPT-OSS
- Élagage du cache KV pour les transformers standards et instantané d’état DeltaNet (restauration en ~0.1ms) pour l’architecture hybride Qwen3.5, améliorant de 2 à 5× le TTFT des conversations multi-tours, toujours activés sans drapeau séparé
- Prise en charge du smart cloud routing, qui bascule automatiquement les requêtes à grand contexte dont le prefill local est lent vers des LLM cloud comme GPT-5 ou Claude
- Remplacement direct de l’API OpenAI — toute application compatible OpenAI, comme Cursor, Claude Code, Aider, LangChain, PydanticAI, smolagents, Hermes Agent ou Open WebUI, peut se connecter immédiatement via
localhost:8000/v1
- Prise en charge des extensions multimodales et optionnelles : Vision (Gemma 4, Qwen-VL), Audio (TTS/STT), Embeddings, interface de chat Gradio, génération JSON contrainte par schéma, etc.
- Intègre diverses techniques d’optimisation comme TurboQuant V-cache (86% de mémoire économisée), quantification du cache KV, prefill chunking, tool logits bias, etc.
- Fournit le MHI (Model-Harness Index), qui mesure la compatibilité modèle + agent harness — Qwopus 27B obtient le meilleur score avec un MHI de 92
- Techniques d’accélération supplémentaires prévues sur la roadmap : Speculative Decode (1.5~2.3×), EAGLE-3 (3~6.5×), ReDrafter (1.4~1.5×)
- Licence Apache 2.0
3 commentaires
Je me demande quelles seraient les performances par rapport à omlx.
Personnellement, je fais tourner deepseek4 avec antirez/ds4, et il semble que ds4 soit un peu plus rapide.
ds4 est plutôt réservé aux configurations 128 GB, donc c’est un peu ambigu, mais pour les autres modèles, ça a l’air bien.
Récemment, un tweet du CEO de HuggingFace disant qu’après avoir codé dans l’avion avec Qwen3.6 27B, il le trouvait au niveau d’Opus, a eu pas mal de succès ; je vais essayer d’y mettre 3.6 27B aussi.
https://x.com/julien_c/status/2047647522173104145
Je me demande ce que ça donnera en performances en coréen... J’utilise un modèle 96 Go, mais j’imagine que les performances seront inférieures à celles d’un LLM payant, non..?
Si ça atteint au moins le niveau de Gemini CLI, ce serait déjà bien haha