Exécuter des LLM en local

(abishekmuthian.com)

27 points par GN⁺ 2024-12-30 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Le subreddit r/LocalLLaMA et le blog d’Ollama permettent d’obtenir des informations utiles pour démarrer l’exécution de LLM en local

Configuration matérielle

Utilisation d’un ordinateur portable sous Linux équipé d’un CPU Core i9 (32 threads), d’un GPU 4090 (16 Go de VRAM) et de 96 Go de RAM
Les modèles adaptés à la VRAM fonctionnent rapidement, tandis que les grands modèles peuvent être déportés vers la RAM, ce qui peut ralentir les performances
Un ordinateur très puissant n’est pas nécessaire, et les petits modèles peuvent aussi fonctionner sur d’anciens GPU ou uniquement sur CPU

Ollama : middleware incluant des bibliothèques Python et JavaScript pour exécuter Llama.cpp, utilisé avec Docker
Open WebUI : fournit une interface conviviale pour les entrées texte et image
llamafile : permet d’exécuter un LLM sous la forme d’un unique exécutable
AUTOMATIC1111 et Fooocus : outils de génération d’images, avec ComfyUI pour les workflows plus complexes
Continue : prend en charge l’autocomplétion de code dans VSCode
Obsidian Smart Connections : permet d’interroger des notes à l’aide d’Ollama

Téléchargement des derniers LLM via la page des modèles d’Ollama
Suivi des mises à jour des modèles via RSS
Téléchargement de modèles de génération d’images sur CivitAI (attention : certains modèles sont optimisés pour générer des images pour adultes)
Modèles principalement utilisés :
- Llama3.2 : pour les requêtes générales et Smart Connections
- Deepseek-coder-v2 : pour l’autocomplétion de code dans VSCode
- Qwen2.5-coder : pour les conversations liées au code
- Stable Diffusion : pour la génération d’images

Aucun fine-tuning ni quantification en cours actuellement (afin d’éviter les charges prolongées à haute température en raison d’un possible défaut du CPU)

L’exécution de LLM en local offre un contrôle total sur les données et une faible latence de réponse
Cela est possible grâce aux projets open source et aux modèles gratuits
Le contenu sera mis à jour à mesure que de nouveaux outils ou modèles seront utilisés