27 points par GN⁺ 2024-12-30 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Le subreddit r/LocalLLaMA et le blog d’Ollama permettent d’obtenir des informations utiles pour démarrer l’exécution de LLM en local

Configuration matérielle

  • Utilisation d’un ordinateur portable sous Linux équipé d’un CPU Core i9 (32 threads), d’un GPU 4090 (16 Go de VRAM) et de 96 Go de RAM
  • Les modèles adaptés à la VRAM fonctionnent rapidement, tandis que les grands modèles peuvent être déportés vers la RAM, ce qui peut ralentir les performances
  • Un ordinateur très puissant n’est pas nécessaire, et les petits modèles peuvent aussi fonctionner sur d’anciens GPU ou uniquement sur CPU

Outils utilisés

  • Ollama : middleware incluant des bibliothèques Python et JavaScript pour exécuter Llama.cpp, utilisé avec Docker
  • Open WebUI : fournit une interface conviviale pour les entrées texte et image
  • llamafile : permet d’exécuter un LLM sous la forme d’un unique exécutable
  • AUTOMATIC1111 et Fooocus : outils de génération d’images, avec ComfyUI pour les workflows plus complexes
  • Continue : prend en charge l’autocomplétion de code dans VSCode
  • Obsidian Smart Connections : permet d’interroger des notes à l’aide d’Ollama

Choix des modèles

  • Téléchargement des derniers LLM via la page des modèles d’Ollama
  • Suivi des mises à jour des modèles via RSS
  • Téléchargement de modèles de génération d’images sur CivitAI (attention : certains modèles sont optimisés pour générer des images pour adultes)
  • Modèles principalement utilisés :
    • Llama3.2 : pour les requêtes générales et Smart Connections
    • Deepseek-coder-v2 : pour l’autocomplétion de code dans VSCode
    • Qwen2.5-coder : pour les conversations liées au code
    • Stable Diffusion : pour la génération d’images

Mises à jour

  • Utilisation de WatchTower pour mettre à jour les conteneurs Docker
  • Mise à jour des modèles via Open Web UI

Fine-tuning et quantification

  • Aucun fine-tuning ni quantification en cours actuellement (afin d’éviter les charges prolongées à haute température en raison d’un possible défaut du CPU)

Conclusion

  • L’exécution de LLM en local offre un contrôle total sur les données et une faible latence de réponse
  • Cela est possible grâce aux projets open source et aux modèles gratuits
  • Le contenu sera mis à jour à mesure que de nouveaux outils ou modèles seront utilisés

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.