18 points par GN⁺ 2025-05-02 | 3 commentaires | Partager sur WhatsApp
  • En s’appuyant sur la bibliothèque MLX, exécuter directement sur Mac et servir en local le puissant modèle récent Qwen3-30B-A3B-8bit
  • Le connecter dans Localforge via l’API de type OpenAI pour mettre en place une boucle d’agent
  • Ajouter un modèle auxiliaire basé sur ollama (Gemma3) pour séparer le rôle d’assistance de l’agent et permettre une utilisation plus efficace des outils
  • Une fois configuré dans l’interface de Localforge, l’agent peut exécuter « LS Tool Run », créer un site web et même lancer automatiquement un jeu Snake
  • Tout ce processus est gratuit et peut fonctionner entièrement en local de manière autonome ; un projet que les utilisateurs de Mac peuvent essayer eux-mêmes

Exécuter Qwen3 en local sur Mac

  • Objectif : exécuter le dernier modèle Qwen3 sur Mac et l’utiliser comme agent via Localforge pour expérimenter l’automatisation du code
  • Qwen3 est distribué sur Ollama et dans la communauté MLX de HuggingFace
  • Étape 1 : installer l’environnement MLX

    pip install mlx  
    pip install mlx-lm  
    
  • Étape 2 : lancer le serveur du modèle

    mlx_lm.server --model mlx-community/Qwen3-30B-A3B-8bit --trust-remote-code --port 8082  
    
    • Le modèle est téléchargé automatiquement puis lancé comme serveur API sur le port 8082
    • Si le message « Starting httpd... » apparaît dans les logs, l’exécution est correcte

Configuration de Localforge

  • Site officiel : https://localforge.dev
  • Après l’installation, la configuration suivante est nécessaire dans les réglages :
  • Ajouter un provider

    • a) Provider Ollama (modèle auxiliaire)
      • Nom : LocalOllama
      • Type : ollama
      • Installation requise : modèle gemma3:latest (adapté aux traitements linguistiques simples)
    • b) Provider Qwen3 (modèle principal)

  • Créer un agent

    • Nom : qwen3-agent
    • Modèle principal : qwen3:mlx:30b (nom du modèle : mlx-community/Qwen3-30B-A3B-8bit)
    • Modèle auxiliaire : LocalOllama (nom du modèle : gemma3:latest)

Conclusion

  • Sur Mac, il est possible d’exécuter gratuitement un grand modèle en local et de faire du codage automatisé basé sur des agents
  • Des résultats encore plus précis sont possibles en ajustant le choix du modèle ou le system prompt
  • Localforge + MLX + Qwen3 forment une combinaison très utile pour les expérimentations LLM personnelles

3 commentaires

 
ragingwind 2025-05-02

En local, le 30b est franchement excellent, non ? J’avais été plutôt déçu par Qwen2.5-Coder, mais ça vaut le coup d’essayer.

 
GN⁺ 2025-05-02
Avis Hacker News
  • J’utilise le modèle Qwen3-30B-A3B en local et il est très impressionnant. Pour ceux qui attendaient GPT-4, cela peut constituer une alternative. J’obtiens 70 tok/s sur un M3 Max, donc c’est très agréable à utiliser.

    • Je suis particulièrement impressionné par le fait que le modèle 0.6B puisse être utile pour des tâches non critiques, même parmi les modèles de moins de 1B.
    • Dans l’ensemble, c’est très impressionnant, et j’évalue actuellement comment l’intégrer à ma configuration existante.
  • Faire tourner qwen3 et appeler l’outil ls, ce n’est pas du "vibe coding". Cela ressemble plutôt à une publicité pour LocalForge.

    • En pratique, je doute que cela fonctionne bien pour de véritables tâches autonomes, comme lire plusieurs fichiers, explorer des répertoires et déterminer où apporter des modifications.
  • Je tiens à saluer MLX et MLX-LM. Je les utilise pour affiner localement le modèle Gemma 3, et les bibliothèques et outils créés par les développeurs Apple sont bien conçus.

  • Par hasard, j’ai fait entrer Qwen3 dans une boucle avec un prompt simple.

    • J’ai utilisé le prompt : "créer un décorateur Python utilisant un trie pour le routage de sujets mqtt"
    • phi4-reasoning fonctionne, mais le code semble contenir des bugs.
    • phi4-mini-reasoning est perdu.
    • qwen3:30b entre dans une boucle et oublie le décorateur.
    • mistral-small comprend immédiatement l’essentiel et le code semble correct.
    • J’utilise régulièrement les modèles Copilot, et Claude 3.7 ainsi que Gemini produisent du code exploitable avec des tests. En revanche, les modèles locaux ne semblent pas encore à ce niveau.
  • Quelqu’un connaît-il une configuration où un LLM local, avec MCP, peut collaborer pour exécuter des tâches, compresser le contexte ou coopérer avec un agent cloud ?

    • Cela semble absurde qu’une nouvelle machine M3 ne fasse que rendre l’UI pendant qu’un LLM cloud refactorise la base de code. On dirait qu’ils devraient pouvoir coordonner leur travail entre eux.
  • J’aimerais partager un tutoriel rapide pour exécuter un véritable agent autonome en local et lui faire accomplir des tâches simples.

    • Je cherche encore la bonne configuration MLX ou la version de modèle appropriée, mais le framework de cette approche est solide.
  • Je suis ravi d’avoir découvert LocalForge. J’ai une question à son sujet. Peut-on combiner deux agents afin de transmettre une image à un agent multimodal pour obtenir du html/css, puis laisser un autre agent écrire le reste du code ?

    • Le billet mentionne Gemma3 (multimodal) et Qwen3 (non multimodal). Peut-on les utiliser comme décrit ci-dessus ?
    • Je me demande comment LocalForge sait vers quel agent router le prompt.
  • C’est très impressionnant. Il n’est pas nécessaire que ce soit aussi bon que les modèles à jetons payants.

    • Par exemple, j’ai dépensé au moins 300 $ le mois dernier en vibe coding. C’était pour connaître les outils concurrents, et parce que je voulais réécrire dans un autre langage de programmation après avoir terminé l’implémentation d’un projet perso.
    • Même avec une petite pause ici, un portable Nvidia reconditionné pourrait rentabiliser son coût en moins d’un an. Il est décevant qu’Ollama ne gère pas encore tout le flux. Cela pourrait tenir en une seule commande.
  • Ça a l’air bien. Je cherchais un IDE assisté par IA orienté local-first capable de fonctionner avec Gemma 3 27B de Google.

    • Je pense qu’il faudrait préciser que LocalForge est son propre projet.
  • Exécuter des modèles en local devient enfin intéressant. En particulier, la version 30B-A3B semble aller dans une direction prometteuse. Ce n’est pas encore accessible avec 16 GB de VRAM, mais on s’en approche assez.

    • J’attends les nouvelles cartes Nvidia RTX avec 24/32 GB de VRAM. On pourrait atteindre le niveau de GPT-4 d’ici quelques années. Cela serait utile pour de nombreuses tâches.