3 points par GN⁺ 2025-02-17 | 1 commentaires | Partager sur WhatsApp
  • Ce projet partage les résultats sur la manière d’exécuter le modèle Deepseek R1 Distill 8B Q40 sur des appareils Raspberry Pi 5 8GB.
  • Évaluation des performances et prédiction du modèle à l’aide de plusieurs Raspberry Pi
  • Résultats d’évaluation et de prédiction
    • 2 x Raspberry Pi 5 8GB
      • Évaluation : 7,70 tokens par seconde
      • Prédiction : 3,54 tokens par seconde
    • 4 x Raspberry Pi 5 8GB
      • Évaluation : 11,68 tokens par seconde
      • Prédiction : 6,43 tokens par seconde
  • Autres informations
    • Les tests ont été réalisés avec le réseau fermé.
    • Vérification des performances dans un environnement de cluster utilisant plusieurs appareils.

1 commentaires

 
GN⁺ 2025-02-17
Avis Hacker News
  • Les annonces montrant l’exécution de « Deepseek R1 » sur Raspberry Pi suivent toujours le même schéma : faire tourner un llama ou un qwen modifié grâce à la technique de distillation de Deepseek
    • La démo montre que la question est « résolue » en moins de 500 tokens
    • Il faut noter qu’on ne peut pas atteindre de telles vitesses lorsqu’on traite des modèles de « raisonnement » avec une longueur de contexte utile en conditions réelles (8 à 16k tokens)
    • Même un EPYC avec beaucoup de canaux tombe à environ 2 à 4 t/s après une longueur de contexte d’environ 4096
  • On peut acheter 4 Pi 5 pour 320 £, mais si vous trouvez une 3080 12GB d’occasion, vous obtiendrez probablement plus de 10 fois la vitesse en tokens
  • Ce qui est intéressant ici, c’est qu’on peut exécuter l’inférence llama de manière distribuée sur plusieurs ordinateurs
    • C’est un cluster Beowulf moderne
  • Je n’ai pas compris comment plusieurs Raspberry Pi sont utilisés en parallèle. J’espère que quelqu’un pourra m’orienter sur ce point
  • Si vous voulez essayer ce modèle sur Mac, vous pouvez utiliser le nouveau plugin llm-mlx et l’exécuter ainsi
    • brew install llm ou pipx install llm ou uv tool install llm
    • llm install llm-mlx
    • llm mlx download-model mlx-community/DeepSeek-R1-Distill-Llama-8B
    • llm -m mlx-community/DeepSeek-R1-Distill-Llama-8B 'poem about an otter'
    • Je viens de le lancer et j’ai obtenu des performances de 22 tokens/s
  • Je me demande quand on pourra installer toutes ces nouvelles technologies IA avec un simple apt-get install
  • Je me demande si ajouter de la mémoire aiderait. Un Rpi 5 avec 16GB de RAM est sorti récemment
  • Un produit basé sur les LLM aurait besoin d’un LLM exécuté en local, comme Alexa ou Google Home, au lieu de se connecter au cloud. Je ne sais pas pourquoi cela n’existe pas encore, ni pourquoi personne ne le fait