Guide pour exécuter Llama 2 en local

(replicate.com)

5 points par GN⁺ 2023-07-26 | 2 commentaires | Partager sur WhatsApp

Il est possible d’exécuter Llama 2 sur votre propre appareil, sans connexion Internet.
Trois outils open source permettent d’exécuter Llama 2 en local : Llama.cpp, Ollama et MLC LLM.
Llama.cpp est un portage de Llama en C/C++ compatible avec Mac, Windows et Linux.
Ollama est une application macOS qui permet d’exécuter Llama 2 via une interface en ligne de commande.
MLC LLM permet d’exécuter Llama 2 sur des téléphones, y compris sous iOS et Android.
Ollama recommande au minimum 8 Go de RAM pour exécuter le modèle 3B, 16 Go pour le modèle 7B et 32 Go pour le modèle 13B.
MLC LLM prend en charge les versions 7B, 13B et 70B de Llama 2, mais reste encore en bêta pour les utilisateurs d’iPhone.
Vous pouvez partager vos créations et obtenir de l’aide sur la communauté Discord.
Replicate propose aussi une option pour exécuter Llama 2 dans le cloud et l’affiner.

2 commentaires

haebom 2023-07-28

Je le fais tourner sur un Mac Studio M2, et ça fonctionne bien.

GN⁺ 2023-07-26

Un utilisateur fournit des instructions pour compiler Llama 2 sous Windows, y compris l’installation du toolkit CUDA et le téléchargement du modèle.
Une fonction PowerShell est partagée pour exécuter plus facilement Llama 2.
Un stream de live coding est mentionné, montrant comment affiner finement Llama 2 avec PEFT/Lora sur un GPU Google Colab A100.
Un commentateur suggère l’inférence Hugging Face pour utiliser le GPU sur une machine Linux.
Un fork du code source original de Llama 2, pouvant tourner sur CPU ou MPS (GPU M1/M2), est partagé.
GPT4All est recommandé pour utiliser facilement Llama 2 sur MacOS ou Windows.
Une mise en garde est formulée contre le fait de pipe directement des scripts de sites web vers bash.
Un commentateur discute du potentiel de Llama 2 pour interpréter et utiliser des images.
Des doutes sont exprimés sur l’intérêt d’utiliser Llama 2 au-delà de la recherche.
Les limites des modèles LLM sont mentionnées, avec un refus de générer un objet JSON sur le film "Matrix".