Exécuter des LLM en local
(abishekmuthian.com)- Le subreddit r/LocalLLaMA et le blog d’Ollama permettent d’obtenir des informations utiles pour démarrer l’exécution de LLM en local
Configuration matérielle
- Utilisation d’un ordinateur portable sous Linux équipé d’un CPU Core i9 (32 threads), d’un GPU 4090 (16 Go de VRAM) et de 96 Go de RAM
- Les modèles adaptés à la VRAM fonctionnent rapidement, tandis que les grands modèles peuvent être déportés vers la RAM, ce qui peut ralentir les performances
- Un ordinateur très puissant n’est pas nécessaire, et les petits modèles peuvent aussi fonctionner sur d’anciens GPU ou uniquement sur CPU
Outils utilisés
- Ollama : middleware incluant des bibliothèques Python et JavaScript pour exécuter Llama.cpp, utilisé avec Docker
- Open WebUI : fournit une interface conviviale pour les entrées texte et image
- llamafile : permet d’exécuter un LLM sous la forme d’un unique exécutable
- AUTOMATIC1111 et Fooocus : outils de génération d’images, avec ComfyUI pour les workflows plus complexes
- Continue : prend en charge l’autocomplétion de code dans VSCode
- Obsidian Smart Connections : permet d’interroger des notes à l’aide d’Ollama
Choix des modèles
- Téléchargement des derniers LLM via la page des modèles d’Ollama
- Suivi des mises à jour des modèles via RSS
- Téléchargement de modèles de génération d’images sur CivitAI (attention : certains modèles sont optimisés pour générer des images pour adultes)
- Modèles principalement utilisés :
- Llama3.2 : pour les requêtes générales et Smart Connections
- Deepseek-coder-v2 : pour l’autocomplétion de code dans VSCode
- Qwen2.5-coder : pour les conversations liées au code
- Stable Diffusion : pour la génération d’images
Mises à jour
- Utilisation de WatchTower pour mettre à jour les conteneurs Docker
- Mise à jour des modèles via Open Web UI
Fine-tuning et quantification
- Aucun fine-tuning ni quantification en cours actuellement (afin d’éviter les charges prolongées à haute température en raison d’un possible défaut du CPU)
Conclusion
- L’exécution de LLM en local offre un contrôle total sur les données et une faible latence de réponse
- Cela est possible grâce aux projets open source et aux modèles gratuits
- Le contenu sera mis à jour à mesure que de nouveaux outils ou modèles seront utilisés
Aucun commentaire pour le moment.