Résumé de la configuration d’Ollama et du modèle Gemma 4 26B sur Mac mini (en date d’avril 2026)

(gist.github.com/greenstevester)

33 points par GN⁺ 25 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Récapitulatif de la procédure pour configurer Ollama et les modèles Gemma 4 sur un Mac mini basé sur Apple Silicon, avec exécution automatique et maintien en mémoire
À l’aide de Homebrew, d’un Launch Agent et de variables d’environnement, le modèle est automatiquement chargé même après redémarrage, et le modèle 8B fonctionne de manière stable avec environ 9,6 Go de mémoire
Ollama v0.19 et plus prend en charge le backend MLX et le format NVFP4, améliorant les performances d’inférence sur les environnements Apple et NVIDIA
Le modèle 26B n’est pas recommandé en raison de son occupation mémoire élevée, tandis que le modèle 8B convient mieux à un usage réel
Via l’API locale, il est possible d’envoyer des requêtes Chat Completion compatibles OpenAI, ce qui est utile pour mettre en place un environnement de service LLM persistant sur Mac mini

Préparation

Un Mac mini basé sur Apple Silicon (M1 à M5) est nécessaire
Pour exécuter le modèle Gemma 4 (8B), il est recommandé d’avoir au minimum 16 Go de mémoire unifiée
Un environnement macOS avec Homebrew installé est requis

Étape 1 — Installer Ollama

Installer l’application macOS Ollama via le cask Homebrew
```
brew install --cask ollama-app
```
Après l’installation, Ollama.app est placé dans /Applications/ et la CLI dans /opt/homebrew/bin/ollama
Les mises à jour automatiques et le backend MLX sont inclus

Étape 2 — Lancer Ollama et vérifier

Lancer l’application Ollama
```
open -a Ollama
```
Attendre l’initialisation du serveur après l’apparition de l’icône dans la barre des menus
Vérifier l’état d’exécution
```
ollama list
```

Étape 3 — Télécharger le modèle Gemma 4

Télécharger le modèle
```
ollama pull gemma4
```
Vérifier avec ollama list après le téléchargement d’environ 9,6 Go
Le modèle 26B occupe la majeure partie des 24 Go de mémoire, ce qui entraîne une baisse de réactivité du système
- Il est recommandé d’utiliser le modèle 8B (quantification Q4_K_M) par défaut

Étape 4 — Tester le modèle et vérifier l’accélération GPU

Tester le modèle

ollama run gemma4:latest "Hello, what model are you?"

Vérifier l’état de l’accélération GPU
```
ollama ps
```
- Exemple : ratio CPU/GPU de 14 % / 86 %

Étape 5 — Configurer le lancement automatique et le maintien du modèle

5a. Lancement automatique de l’application Ollama
- Cliquer sur l’icône dans la barre des menus → activer Launch at Login
- Ou l’ajouter manuellement dans System Settings > General > Login Items
5b. Préchargement automatique de Gemma 4
- Créer un Launch Agent pour charger automatiquement le modèle après le démarrage d’Ollama et le maintenir actif toutes les 5 minutes
```
cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
...
EOF
```
- Charger l’agent
```
launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
```
- Un prompt vide est envoyé toutes les 5 minutes pour garder le modèle en mémoire
5c. Maintenir le modèle indéfiniment
- Par défaut, le modèle est déchargé après 5 minutes d’inactivité
- Configuration pour le maintenir indéfiniment
```
launchctl setenv OLLAMA_KEEP_ALIVE "-1"
```
- Pour conserver ce réglage après redémarrage, l’ajouter à ~/.zshrc

Étape 6 — Vérifier la configuration

Vérifier que le serveur Ollama est en cours d’exécution
```
ollama list
```
Vérifier que le modèle est chargé en mémoire
```
ollama ps
```
Vérifier l’enregistrement du Launch Agent
```
launchctl list | grep ollama
```

Exemple de sortie attendue

gemma4:latest ... 9.6 GB 14%/86% CPU/GPU 4096 Forever

Accès API

Point d’accès de l’API locale : http://localhost:11434

Exemple de Chat Completion compatible OpenAI

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:latest",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

Commandes utiles

Commande	Description
`ollama list`	Liste des modèles téléchargés
`ollama ps`	Modèles en cours d’exécution et utilisation mémoire
`ollama run gemma4:latest`	Exécution interactive
`ollama stop gemma4:latest`	Décharger le modèle
`ollama pull gemma4:latest`	Mettre à jour vers la dernière version
`ollama rm gemma4:latest`	Supprimer le modèle

Désinstaller Ollama et désactiver le lancement automatique

launchctl unload ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
rm ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
brew uninstall --cask ollama-app

Principales améliorations d’Ollama v0.19+ (31 mars 2026)

Backend MLX (Apple Silicon)
- Utilisation automatique du framework Apple MLX pour améliorer la vitesse d’inférence
- Les puces de la série M5 prennent en charge une accélération supplémentaire via le GPU Neural Accelerator
- Les puces M4 et antérieures bénéficient également d’une amélioration générale des performances grâce à MLX
Format NVFP4 (NVIDIA)
- Le format NVFP4 permet de réduire la bande passante mémoire et l’espace de stockage tout en conservant la précision
- Compatible avec les modèles générés par les outils d’optimisation de modèles NVIDIA
Améliorations du cache (codage et tâches d’agent)
- Réduction de l’utilisation mémoire : amélioration de l’efficacité grâce à la réutilisation du cache entre les conversations
- Checkpoints intelligents : réduction du traitement des prompts et amélioration de la vitesse de réponse
- Suppression intelligente du cache : meilleure efficacité pour les tâches branchées en conservant les préfixes communs

Notes complémentaires

Le modèle Gemma 4 (8B) utilise environ 9,6 Go de mémoire
- Sur un Mac mini 24 Go, il reste environ 14 Go disponibles
Le modèle 26B utilise environ 17 Go, ce qui provoque du swap système et une baisse de réactivité
- Le modèle 8B offre des performances stables

Résumé de la configuration d’Ollama et du modèle Gemma 4 26B sur Mac mini (en date d’avril 2026)

Préparation

Étape 1 — Installer Ollama

Étape 2 — Lancer Ollama et vérifier

Étape 3 — Télécharger le modèle Gemma 4

Étape 4 — Tester le modèle et vérifier l’accélération GPU

Étape 5 — Configurer le lancement automatique et le maintien du modèle

5a. Lancement automatique de l’application Ollama

5b. Préchargement automatique de Gemma 4

5c. Maintenir le modèle indéfiniment

Étape 6 — Vérifier la configuration

Accès API

Commandes utiles

Désinstaller Ollama et désactiver le lancement automatique

Principales améliorations d’Ollama v0.19+ (31 mars 2026)

Backend MLX (Apple Silicon)

Format NVFP4 (NVIDIA)

Améliorations du cache (codage et tâches d’agent)

Notes complémentaires

Liens de référence

À lire aussi

Aucun commentaire pour le moment.