2 points par GN⁺ 2025-03-08 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Avec le dernier llama.cpp Portable Zip, il est possible d’exécuter DeepSeek-R1-671B-Q4_K_M sur Xeon avec 1 ou 2 Arc A770
  • Ce guide explique comment exécuter directement llama.cpp avec ipex-llm sur un GPU Intel

Environnements pris en charge

  • Processeurs Intel Core Ultra
  • Processeurs Intel Core de 11e à 14e génération
  • GPU Intel Arc série A
  • GPU Intel Arc série B

Table des matières

  • Démarrage rapide sous Windows
    • Prérequis
    • Étape 1 : téléchargement et décompression
    • Étape 2 : configuration de l’exécution
    • Étape 3 : exécution du modèle GGUF
  • Démarrage rapide sous Linux
    • Prérequis
    • Étape 1 : téléchargement et extraction
    • Étape 2 : configuration de l’exécution
    • Étape 3 : exécution du modèle GGUF
  • (Nouveau) Exécuter DeepSeek V3/R1 671B avec FlashMoE
  • Astuces et dépannage
    • Erreur : périphériques sycl différents détectés
    • Utilisation de plusieurs GPU
    • Variables d’environnement de performance
  • En savoir plus

Démarrage rapide sous Windows

Prérequis

  • Vérifier la version du pilote GPU et la mettre à jour si nécessaire
    • Pour les processeurs Intel Core Ultra ou les GPU Intel Arc série B, le dernier pilote est recommandé
    • Pour les autres iGPU/dGPU Intel, la version de pilote 32.0.101.6078 est recommandée

Étape 1 : téléchargement et décompression

  • Les utilisateurs Windows doivent télécharger le portable zip IPEX-LLM llama.cpp et le décompresser dans un dossier

Étape 2 : configuration de l’exécution

  • Ouvrir l’« invite de commandes » et accéder au dossier avec la commande cd /d PATH\TO\EXTRACTED\FOLDER
  • Certaines variables d’environnement sont nécessaires ou recommandées pour utiliser l’accélération GPU
    • Définir set SYCL_CACHE_PERSISTENT=1
  • Les utilisateurs de plusieurs GPU peuvent consulter les astuces pour savoir comment sélectionner un GPU précis

Étape 3 : exécution du modèle GGUF

  • Télécharger ou copier un modèle GGUF de la communauté dans un répertoire local
  • Après avoir défini le chemin du modèle, exécuter la commande llama-cli.exe

Démarrage rapide sous Linux

Prérequis

  • Vérifier la version du pilote GPU et la mettre à jour si nécessaire
  • Il est recommandé d’installer le pilote en suivant le guide d’installation du pilote GPU client Intel

Étape 1 : téléchargement et extraction

  • Les utilisateurs Linux doivent télécharger le portable tgz IPEX-LLM llama.cpp et l’extraire dans un dossier

Étape 2 : configuration de l’exécution

  • Ouvrir le « terminal » et accéder au dossier avec la commande cd /PATH/TO/EXTRACTED/FOLDER
  • Certaines variables d’environnement sont nécessaires ou recommandées pour utiliser l’accélération GPU
    • Définir export SYCL_CACHE_PERSISTENT=1
  • Les utilisateurs de plusieurs GPU peuvent consulter les astuces pour savoir comment sélectionner un GPU précis

Étape 3 : exécution du modèle GGUF

  • Télécharger ou copier un modèle GGUF de la communauté dans un répertoire local
  • Après avoir défini le chemin du modèle, exécuter la commande ./llama-cli

FlashMoE pour DeepSeek V3/R1

  • FlashMoE est un outil en ligne de commande basé sur llama.cpp, optimisé pour les modèles MoE
  • Disponible sur plateforme Linux
  • Modèles MoE GGUF testés : DeepSeek-V3-Q4_K_M, DeepSeek-V3-Q6_K, etc.

Astuces et dépannage

Erreur : périphériques sycl différents détectés

  • Si des périphériques sycl différents sont détectés, les performances seront limitées par le périphérique le plus lent
  • En définissant SYCL_DEVICE_CHECK=0, il est possible de désactiver cette vérification et d’utiliser tous les périphériques

Utilisation de plusieurs GPU

  • S’il y a plusieurs GPU Intel, l’exécution se fait par défaut sur tous les GPU
  • Pour utiliser un GPU spécifique, définir la variable d’environnement ONEAPI_DEVICE_SELECTOR

Variables d’environnement de performance

  • Il est possible d’améliorer les performances avec le paramètre SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS
  • Ce mode peut améliorer les performances, mais des exceptions peuvent se produire

Ce guide présente une méthode pour exécuter efficacement llama.cpp sur des GPU Intel, avec différents réglages et optimisations inclus.

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.