5 points par GN⁺ 2023-07-26 | 2 commentaires | Partager sur WhatsApp
  • Il est possible d’exécuter Llama 2 sur votre propre appareil, sans connexion Internet.
  • Trois outils open source permettent d’exécuter Llama 2 en local : Llama.cpp, Ollama et MLC LLM.
  • Llama.cpp est un portage de Llama en C/C++ compatible avec Mac, Windows et Linux.
  • Ollama est une application macOS qui permet d’exécuter Llama 2 via une interface en ligne de commande.
  • MLC LLM permet d’exécuter Llama 2 sur des téléphones, y compris sous iOS et Android.
  • Ollama recommande au minimum 8 Go de RAM pour exécuter le modèle 3B, 16 Go pour le modèle 7B et 32 Go pour le modèle 13B.
  • MLC LLM prend en charge les versions 7B, 13B et 70B de Llama 2, mais reste encore en bêta pour les utilisateurs d’iPhone.
  • Vous pouvez partager vos créations et obtenir de l’aide sur la communauté Discord.
  • Replicate propose aussi une option pour exécuter Llama 2 dans le cloud et l’affiner.

2 commentaires

 
haebom 2023-07-28

Je le fais tourner sur un Mac Studio M2, et ça fonctionne bien.

 
GN⁺ 2023-07-26
Discussion sur Hacker News
  • Un utilisateur fournit des instructions pour compiler Llama 2 sous Windows, y compris l’installation du toolkit CUDA et le téléchargement du modèle.
  • Une fonction PowerShell est partagée pour exécuter plus facilement Llama 2.
  • Un stream de live coding est mentionné, montrant comment affiner finement Llama 2 avec PEFT/Lora sur un GPU Google Colab A100.
  • Un commentateur suggère l’inférence Hugging Face pour utiliser le GPU sur une machine Linux.
  • Un fork du code source original de Llama 2, pouvant tourner sur CPU ou MPS (GPU M1/M2), est partagé.
  • GPT4All est recommandé pour utiliser facilement Llama 2 sur MacOS ou Windows.
  • Une mise en garde est formulée contre le fait de pipe directement des scripts de sites web vers bash.
  • Un commentateur discute du potentiel de Llama 2 pour interpréter et utiliser des images.
  • Des doutes sont exprimés sur l’intérêt d’utiliser Llama 2 au-delà de la recherche.
  • Les limites des modèles LLM sont mentionnées, avec un refus de générer un objet JSON sur le film "Matrix".