Rapid-MLX - moteur d’IA local ultra-rapide dédié à Apple Silicon
(github.com/raullenchai)- Moteur d’inférence permettant d’exécuter des modèles d’IA en local sur les Mac Apple Silicon, en exploitant des kernels de calcul Metal natifs basés sur le framework MLX d’Apple
- Jusqu’à 4,2× plus rapide qu’Ollama en inférence — 180 tok/s pour Phi-4 Mini 14B (soit 3,2× les 56 tok/s d’Ollama), 108 tok/s pour Qwen3.5-9B (soit 2,6× les 41 tok/s d’Ollama)
- TTFT de 0,08 seconde avec cache actif (sur Kimi-Linear-48B), et généralement entre 0,1 et 0,3 seconde sur la plupart des modèles
- 17 parseurs d’appels d’outils intégrés avec détection automatique à partir du nom du modèle — même si un modèle quantifié en 4bit produit un appel d’outil corrompu sous forme de texte, il est automatiquement reconstruit dans un format structuré
- Correspondance optimale des modèles selon la RAM fournie, de 16GB MacBook Air (Qwen3.5-4B, 160 tok/s) à 256GB Mac Studio Ultra (DeepSeek V4 Flash 158B, 31 tok/s, contexte 1M)
- 16GB MacBook Air/Pro : Qwen3.5-4B 4bit → 2.4GB de RAM utilisée, 160 tok/s, compatible chat, code et appels d’outils
- 24GB MacBook Pro : Qwen3.5-9B 4bit → 5.1GB, 108 tok/s, modèle généraliste
- 32GB Mac Mini/Studio : Qwen3.5-27B 4bit (15.3GB, 39 tok/s), Nemotron-Nano 30B 4bit (18GB, 141 tok/s, 100% d’appels d’outils), Qwen3.6-35B-A3B 4bit (20GB, 95 tok/s, 256 experts MoE, contexte 262K)
- 48~64GB : Qwen3.5-35B-A3B 8bit → 37GB, 83 tok/s, meilleur équilibre entre intelligence et rapidité
- 96GB+ : Qwen3.5-122B mxfp4 → 65GB, 57 tok/s, intelligence de niveau frontier
- 128GB+ : DeepSeek V4 Flash 158B-A13B 2-bit DQ → 91GB, 56 tok/s, MoE frontier disponible dès le day-0
- 192~256GB : Qwen3.5-122B 8bit (130GB, 44 tok/s) ou DeepSeek V4 Flash 8-bit (136GB, 31 tok/s, contexte 1M)
- Le 4bit privilégie l’économie mémoire (recommandé dans la plupart des cas), le 8bit une inférence de meilleure qualité, et mxfp4 est un format 4bit de haute qualité
- Fonction de séparation du raisonnement qui isole le processus de raisonnement des modèles chain-of-thought dans un champ
reasoning_contentdistinct — formats pris en charge : Qwen3, DeepSeek-R1, MiniMax, GPT-OSS - Élagage du cache KV pour les transformers standards et instantané d’état DeltaNet (restauration en ~0.1ms) pour l’architecture hybride Qwen3.5, améliorant de 2 à 5× le TTFT des conversations multi-tours, toujours activés sans drapeau séparé
- Prise en charge du smart cloud routing, qui bascule automatiquement les requêtes à grand contexte dont le prefill local est lent vers des LLM cloud comme GPT-5 ou Claude
- Remplacement direct de l’API OpenAI — toute application compatible OpenAI, comme Cursor, Claude Code, Aider, LangChain, PydanticAI, smolagents, Hermes Agent ou Open WebUI, peut se connecter immédiatement via
localhost:8000/v1 - Prise en charge des extensions multimodales et optionnelles : Vision (Gemma 4, Qwen-VL), Audio (TTS/STT), Embeddings, interface de chat Gradio, génération JSON contrainte par schéma, etc.
- Intègre diverses techniques d’optimisation comme TurboQuant V-cache (86% de mémoire économisée), quantification du cache KV, prefill chunking, tool logits bias, etc.
- Fournit le MHI (Model-Harness Index), qui mesure la compatibilité modèle + agent harness — Qwopus 27B obtient le meilleur score avec un MHI de 92
- Techniques d’accélération supplémentaires prévues sur la roadmap : Speculative Decode (1.5~2.3×), EAGLE-3 (3~6.5×), ReDrafter (1.4~1.5×)
- Licence Apache 2.0
6 commentaires
Y a-t-il vraiment des gens qui utilisent ça sur un MBP 128 Go ? (Je suis curieux d’avoir des avis)
Ça tourne autour de 8 millions de wons, donc je me demande si, au bout d’un an environ, ce serait rentable..
Et puis en y repensant, même en utilisant une IA locale, j’aurais probablement aussi un abonnement à côté haha
J’utilise un M5 Max avec 128 Go, et je suis abonné à Codex, DeepSeek et Kimi, tout en payant aussi pour utiliser des API lol. Pour les modèles locaux, même sur un MacBook de 128 Go, le seul vraiment utile en pratique, c’est à peu près Qwen 3.6 27b. Les autres modèles avec un nombre de paramètres similaire sont moins performants, et des modèles comme le 122B, même s’ils se lancent, ne tournent pas à un niveau vraiment exploitable.
Les chiffres de vitesse sont impressionnants, mais personnellement, ce sont surtout la compatibilité avec l’API OpenAI, le parseur d’appels d’outils et la séparation du reasoning qui ont retenu mon attention.
Quand on essaie d’intégrer des modèles locaux à des outils de développement ou à des workflows d’agents côté backend, l’utilisabilité réelle dépend souvent autant des différences de format de réponse selon les modèles, de la récupération des
tool callscassés et du TTFT sur de longs contextes que de la simple vitesse d’inférence. Sous cet angle, cela ressemble moins à un « moteur d’inférence locale rapide » qu’à un « moteur local qui s’intègre de manière fiable à un harnais d’agents ».Il faudra reproduire les benchmarks dans des conditions identiques, mais si ce niveau de boucle de développement locale devient possible sur Apple Silicon, le coût des prototypes ou des expérimentations d’outils internes pourrait baisser de manière assez sensible. La tentative, comme avec MHI, d’évaluer séparément la compatibilité entre modèle et harnais est aussi intéressante.
Je me demande quelles seraient les performances par rapport à omlx.
Personnellement, je fais tourner deepseek4 avec antirez/ds4, et il semble que ds4 soit un peu plus rapide.
ds4 est plutôt réservé aux configurations 128 GB, donc c’est un peu ambigu, mais pour les autres modèles, ça a l’air bien.
Récemment, un tweet du CEO de HuggingFace disant qu’après avoir codé dans l’avion avec Qwen3.6 27B, il le trouvait au niveau d’Opus, a eu pas mal de succès ; je vais essayer d’y mettre 3.6 27B aussi.
https://x.com/julien_c/status/2047647522173104145
Je me demande ce que ça donnera en performances en coréen... J’utilise un modèle 96 Go, mais j’imagine que les performances seront inférieures à celles d’un LLM payant, non..?
Si ça atteint au moins le niveau de Gemini CLI, ce serait déjà bien haha