- En s’appuyant sur la bibliothèque MLX, exécuter directement sur Mac et servir en local le puissant modèle récent Qwen3-30B-A3B-8bit
- Le connecter dans Localforge via l’API de type OpenAI pour mettre en place une boucle d’agent
- Ajouter un modèle auxiliaire basé sur ollama (Gemma3) pour séparer le rôle d’assistance de l’agent et permettre une utilisation plus efficace des outils
- Une fois configuré dans l’interface de Localforge, l’agent peut exécuter « LS Tool Run », créer un site web et même lancer automatiquement un jeu Snake
- Tout ce processus est gratuit et peut fonctionner entièrement en local de manière autonome ; un projet que les utilisateurs de Mac peuvent essayer eux-mêmes
Exécuter Qwen3 en local sur Mac
Configuration de Localforge
- Site officiel : https://localforge.dev
- Après l’installation, la configuration suivante est nécessaire dans les réglages :
-
Ajouter un provider
- a) Provider Ollama (modèle auxiliaire)
- Nom : LocalOllama
- Type : ollama
- Installation requise : modèle gemma3:latest (adapté aux traitements linguistiques simples)
-
b) Provider Qwen3 (modèle principal)
-
Créer un agent
- Nom : qwen3-agent
- Modèle principal : qwen3:mlx:30b (nom du modèle :
mlx-community/Qwen3-30B-A3B-8bit)
- Modèle auxiliaire : LocalOllama (nom du modèle :
gemma3:latest)
Conclusion
- Sur Mac, il est possible d’exécuter gratuitement un grand modèle en local et de faire du codage automatisé basé sur des agents
- Des résultats encore plus précis sont possibles en ajustant le choix du modèle ou le system prompt
- Localforge + MLX + Qwen3 forment une combinaison très utile pour les expérimentations LLM personnelles
3 commentaires
En local, le 30b est franchement excellent, non ? J’avais été plutôt déçu par Qwen2.5-Coder, mais ça vaut le coup d’essayer.
Qwen3 - le modèle de langage de nouvelle génération qui réfléchit plus en profondeur et agit plus vite
Avis Hacker News
J’utilise le modèle Qwen3-30B-A3B en local et il est très impressionnant. Pour ceux qui attendaient GPT-4, cela peut constituer une alternative. J’obtiens 70 tok/s sur un M3 Max, donc c’est très agréable à utiliser.
Faire tourner qwen3 et appeler l’outil
ls, ce n’est pas du "vibe coding". Cela ressemble plutôt à une publicité pour LocalForge.Je tiens à saluer MLX et MLX-LM. Je les utilise pour affiner localement le modèle Gemma 3, et les bibliothèques et outils créés par les développeurs Apple sont bien conçus.
Par hasard, j’ai fait entrer Qwen3 dans une boucle avec un prompt simple.
Quelqu’un connaît-il une configuration où un LLM local, avec MCP, peut collaborer pour exécuter des tâches, compresser le contexte ou coopérer avec un agent cloud ?
J’aimerais partager un tutoriel rapide pour exécuter un véritable agent autonome en local et lui faire accomplir des tâches simples.
Je suis ravi d’avoir découvert LocalForge. J’ai une question à son sujet. Peut-on combiner deux agents afin de transmettre une image à un agent multimodal pour obtenir du html/css, puis laisser un autre agent écrire le reste du code ?
C’est très impressionnant. Il n’est pas nécessaire que ce soit aussi bon que les modèles à jetons payants.
Ça a l’air bien. Je cherchais un IDE assisté par IA orienté local-first capable de fonctionner avec Gemma 3 27B de Google.
Exécuter des modèles en local devient enfin intéressant. En particulier, la version 30B-A3B semble aller dans une direction prometteuse. Ce n’est pas encore accessible avec 16 GB de VRAM, mais on s’en approche assez.