Rapid-MLX - moteur d’IA local ultra-rapide dédié à Apple Silicon

xguru · 2026-05-12T09:46:02+09:00

Moteur d’inférence permettant d’exécuter des modèles d’IA en local sur les Mac Apple Silicon, en exploitant des kernels de calcul Metal natifs basés sur le framework MLX d’Apple Jusqu’à 4,2× plus rapide qu’Ollama en inférence — 180 tok/s pour Phi-4 Mini 14B (soit 3,2× les 56 tok/s d’Ollama), 108 tok/s pour Qwen3.5-9B (soit 2,6× les 41 tok/s d’Ollama) TTFT de 0,08 seconde avec cache actif (sur Kimi-Linear-48B), et généralement entre 0,1 et 0,3 seconde sur la plupart des modèles 17 parseurs d’appels d’outils intégrés avec détection automatique à partir du nom du modèle — même si un modèle quantifié en 4bit produit un appel d’outil corrompu sous forme de texte, il est automatiquement reconstruit dans un format structuré Correspondance optimale des modèles selon la RAM fournie, de 16GB MacBook Air (Qwen3.5-4B, 160 tok/s) à 256GB Mac Studio Ultra (DeepSeek V4 Flash 158B, 31 tok/s, contexte 1M) 16GB MacBook Air/Pro : Qwen3.5-4B 4bit → 2.4GB de RAM utilisée, 160 tok/s, compatible chat, code et appels d’outils 24GB MacBook Pro : Qwen3.5-9B 4bit → 5.1GB, 108 tok/s, modèle généraliste 32GB Mac Mini/Studio : Qwen3.5-27B 4bit (15.3GB, 39 tok/s), Nemotron-Nano 30B 4bit (18GB, 141 tok/s, 100% d’appels d’outils), Qwen3.6-35B-A3B 4bit (20GB, 95 tok/s, 256 experts MoE, contexte 262K) 48~64GB : Qwen3.5-35B-A3B 8bit → 37GB, 83 tok/s, meilleur équilibre entre intelligence et rapidité 96GB+ : Qwen3.5-122B mxfp4 → 65GB, 57 tok/s, intelligence de niveau frontier 128GB+ : DeepSeek V4 Flash 158B-A13B 2-bit DQ → 91GB, 56 tok/s, MoE frontier disponible dès le day-0 192~256GB : Qwen3.5-122B 8bit (130GB, 44 tok/s) ou DeepSeek V4 Flash 8-bit (136GB, 31 tok/s, contexte 1M) Le 4bit privilégie l’économie mémoire (recommandé dans la plupart des cas), le 8bit une inférence de meilleure qualité, et mxfp4 est un format 4bit de haute qualité Fonction de séparation du raisonnement qui isole le processus de raisonnement des modèles chain-of-thought dans un champ reasoning_content distinct — formats pris en charge : Qwen3, DeepSeek-R1, MiniMax, GPT-OSS Élagage du cache KV pour les transformers standards et instantané d’état DeltaNet (restauration en ~0.1ms) pour l’architecture hybride Qwen3.5, améliorant de 2 à 5× le TTFT des conversations multi-tours, toujours activés sans drapeau séparé Prise en charge du smart cloud routing, qui bascule automatiquement les requêtes à grand contexte dont le prefill local est lent vers des LLM cloud comme GPT-5 ou Claude Remplacement direct de l’API OpenAI — toute application compatible OpenAI, comme Cursor, Claude Code, Aider, LangChain, PydanticAI, smolagents, Hermes Agent ou Open WebUI, peut se connecter immédiatement via localhost:8000/v1 Prise en charge des extensions multimodales et optionnelles : Vision (Gemma 4, Qwen-VL), Audio (TTS/STT), Embeddings, interface de chat Gradio, génération JSON contrainte par schéma, etc. Intègre diverses techniques d’optimisation comme TurboQuant V-cache (86% de mémoire économisée), quantification du cache KV, prefill chunking, tool logits bias, etc. Fournit le MHI (Model-Harness Index), qui mesure la compatibilité modèle + agent harness — Qwopus 27B obtient le meilleur score avec un MHI de 92 Techniques d’accélération supplémentaires prévues sur la roadmap : Speculative Decode (1.5~2.3×), EAGLE-3 (3~6.5×), ReDrafter (1.4~1.5×) Licence Apache 2.0

(github.com/raullenchai)

13 points par xguru 7 시간 전 | 3 commentaires | Partager sur WhatsApp

Moteur d’inférence permettant d’exécuter des modèles d’IA en local sur les Mac Apple Silicon, en exploitant des kernels de calcul Metal natifs basés sur le framework MLX d’Apple
Jusqu’à 4,2× plus rapide qu’Ollama en inférence — 180 tok/s pour Phi-4 Mini 14B (soit 3,2× les 56 tok/s d’Ollama), 108 tok/s pour Qwen3.5-9B (soit 2,6× les 41 tok/s d’Ollama)
TTFT de 0,08 seconde avec cache actif (sur Kimi-Linear-48B), et généralement entre 0,1 et 0,3 seconde sur la plupart des modèles
17 parseurs d’appels d’outils intégrés avec détection automatique à partir du nom du modèle — même si un modèle quantifié en 4bit produit un appel d’outil corrompu sous forme de texte, il est automatiquement reconstruit dans un format structuré
Correspondance optimale des modèles selon la RAM fournie, de 16GB MacBook Air (Qwen3.5-4B, 160 tok/s) à 256GB Mac Studio Ultra (DeepSeek V4 Flash 158B, 31 tok/s, contexte 1M)
- 16GB MacBook Air/Pro : Qwen3.5-4B 4bit → 2.4GB de RAM utilisée, 160 tok/s, compatible chat, code et appels d’outils
- 24GB MacBook Pro : Qwen3.5-9B 4bit → 5.1GB, 108 tok/s, modèle généraliste
- 32GB Mac Mini/Studio : Qwen3.5-27B 4bit (15.3GB, 39 tok/s), Nemotron-Nano 30B 4bit (18GB, 141 tok/s, 100% d’appels d’outils), Qwen3.6-35B-A3B 4bit (20GB, 95 tok/s, 256 experts MoE, contexte 262K)
- 48~64GB : Qwen3.5-35B-A3B 8bit → 37GB, 83 tok/s, meilleur équilibre entre intelligence et rapidité
- 96GB+ : Qwen3.5-122B mxfp4 → 65GB, 57 tok/s, intelligence de niveau frontier
- 128GB+ : DeepSeek V4 Flash 158B-A13B 2-bit DQ → 91GB, 56 tok/s, MoE frontier disponible dès le day-0
- 192~256GB : Qwen3.5-122B 8bit (130GB, 44 tok/s) ou DeepSeek V4 Flash 8-bit (136GB, 31 tok/s, contexte 1M)
- Le 4bit privilégie l’économie mémoire (recommandé dans la plupart des cas), le 8bit une inférence de meilleure qualité, et mxfp4 est un format 4bit de haute qualité
Fonction de séparation du raisonnement qui isole le processus de raisonnement des modèles chain-of-thought dans un champ reasoning_content distinct — formats pris en charge : Qwen3, DeepSeek-R1, MiniMax, GPT-OSS
Élagage du cache KV pour les transformers standards et instantané d’état DeltaNet (restauration en ~0.1ms) pour l’architecture hybride Qwen3.5, améliorant de 2 à 5× le TTFT des conversations multi-tours, toujours activés sans drapeau séparé
Prise en charge du smart cloud routing, qui bascule automatiquement les requêtes à grand contexte dont le prefill local est lent vers des LLM cloud comme GPT-5 ou Claude
Remplacement direct de l’API OpenAI — toute application compatible OpenAI, comme Cursor, Claude Code, Aider, LangChain, PydanticAI, smolagents, Hermes Agent ou Open WebUI, peut se connecter immédiatement via localhost:8000/v1
Prise en charge des extensions multimodales et optionnelles : Vision (Gemma 4, Qwen-VL), Audio (TTS/STT), Embeddings, interface de chat Gradio, génération JSON contrainte par schéma, etc.
Intègre diverses techniques d’optimisation comme TurboQuant V-cache (86% de mémoire économisée), quantification du cache KV, prefill chunking, tool logits bias, etc.
Fournit le MHI (Model-Harness Index), qui mesure la compatibilité modèle + agent harness — Qwopus 27B obtient le meilleur score avec un MHI de 92
Techniques d’accélération supplémentaires prévues sur la roadmap : Speculative Decode (1.5~2.3×), EAGLE-3 (3~6.5×), ReDrafter (1.4~1.5×)
Licence Apache 2.0

3 commentaires

parkindani 3 시간 전

Je me demande quelles seraient les performances par rapport à omlx.

xguru 6 시간 전

Personnellement, je fais tourner deepseek4 avec antirez/ds4, et il semble que ds4 soit un peu plus rapide.

ds4 est plutôt réservé aux configurations 128 GB, donc c’est un peu ambigu, mais pour les autres modèles, ça a l’air bien.

Récemment, un tweet du CEO de HuggingFace disant qu’après avoir codé dans l’avion avec Qwen3.6 27B, il le trouvait au niveau d’Opus, a eu pas mal de succès ; je vais essayer d’y mettre 3.6 27B aussi.
https://x.com/julien_c/status/2047647522173104145

yangeok 7 시간 전

Je me demande ce que ça donnera en performances en coréen... J’utilise un modèle 96 Go, mais j’imagine que les performances seront inférieures à celles d’un LLM payant, non..?

Si ça atteint au moins le niveau de Gemini CLI, ce serait déjà bien haha

Rapid-MLX - moteur d’IA local ultra-rapide dédié à Apple Silicon

À lire aussi

3 commentaires