1 commentaires

 
GN⁺ 2024-11-30
Avis Hacker News
  • L’augmentation du nombre d’articles de blog est positive, mais la méthode de compilation de llama.cpp semble complexe

    • Il est possible de configurer des paramètres adaptés au matériel et de compiler avec la commande ccmake .
  • Partage d’une expérience réussie d’exécution de Llama.cpp sur un ancien ordinateur portable Dell

    • Cela fonctionnait même avec une configuration minimale, et fournissait des réponses lentes mais précises
    • Souhait d’essayer d’exécuter des modèles plus volumineux sur un meilleur matériel
  • Souhait d’installer Llama.cpp, mais installation de kobold.cpp à la place en raison d’une meilleure UX

  • Partage d’une tentative de compilation sur Windows et AMD

    • Vulkan et MSYS2 sont ce qui fonctionne le plus facilement
  • Question sur les limitations des LLM pris en charge par Llama.cpp

    • Curiosité quant au fait de savoir si seuls certains modèles transformer sont pris en charge
  • Partage d’une expérience de migration vers Ollama

    • La configuration du serveur et du client d’Ollama fonctionne simplement
  • Insistance sur le fait qu’Ollama n’est pas un simple wrapper de llama.cpp

    • Ollama offre diverses fonctionnalités pour l’interface et le packaging des modèles
  • Question sur les raisons d’utiliser Llama.cpp au lieu de l’interface web de ChatGPT

    • Curiosité quant au fait de savoir si la confidentialité est la raison principale
  • Utilisation quotidienne de ChatGPT et Claude, mais impossibilité de trouver une raison d’utiliser des LLM en dehors d’autres services

  • Discussion sur Ollama et l’exécution directe de llama.cpp

    • La configuration de CUDA n’est pas toujours simple, et l’inférence locale peut être plus rapide
    • L’exécution avec PyTorch est plus facile, et les modèles AWQ peuvent être installés simplement