Exécuter DeepSeek-R1-671B-Q4_K_M sur Xeon avec 1 ou 2 Arc A770
(github.com/intel)- Avec le dernier llama.cpp Portable Zip, il est possible d’exécuter DeepSeek-R1-671B-Q4_K_M sur Xeon avec 1 ou 2 Arc A770
- Ce guide explique comment exécuter directement llama.cpp avec
ipex-llmsur un GPU Intel
Environnements pris en charge
- Processeurs Intel Core Ultra
- Processeurs Intel Core de 11e à 14e génération
- GPU Intel Arc série A
- GPU Intel Arc série B
Table des matières
- Démarrage rapide sous Windows
- Prérequis
- Étape 1 : téléchargement et décompression
- Étape 2 : configuration de l’exécution
- Étape 3 : exécution du modèle GGUF
- Démarrage rapide sous Linux
- Prérequis
- Étape 1 : téléchargement et extraction
- Étape 2 : configuration de l’exécution
- Étape 3 : exécution du modèle GGUF
- (Nouveau) Exécuter DeepSeek V3/R1 671B avec FlashMoE
- Astuces et dépannage
- Erreur : périphériques sycl différents détectés
- Utilisation de plusieurs GPU
- Variables d’environnement de performance
- En savoir plus
Démarrage rapide sous Windows
Prérequis
- Vérifier la version du pilote GPU et la mettre à jour si nécessaire
- Pour les processeurs Intel Core Ultra ou les GPU Intel Arc série B, le dernier pilote est recommandé
- Pour les autres iGPU/dGPU Intel, la version de pilote 32.0.101.6078 est recommandée
Étape 1 : téléchargement et décompression
- Les utilisateurs Windows doivent télécharger le portable zip IPEX-LLM llama.cpp et le décompresser dans un dossier
Étape 2 : configuration de l’exécution
- Ouvrir l’« invite de commandes » et accéder au dossier avec la commande
cd /d PATH\TO\EXTRACTED\FOLDER - Certaines variables d’environnement sont nécessaires ou recommandées pour utiliser l’accélération GPU
- Définir
set SYCL_CACHE_PERSISTENT=1
- Définir
- Les utilisateurs de plusieurs GPU peuvent consulter les astuces pour savoir comment sélectionner un GPU précis
Étape 3 : exécution du modèle GGUF
- Télécharger ou copier un modèle GGUF de la communauté dans un répertoire local
- Après avoir défini le chemin du modèle, exécuter la commande
llama-cli.exe
Démarrage rapide sous Linux
Prérequis
- Vérifier la version du pilote GPU et la mettre à jour si nécessaire
- Il est recommandé d’installer le pilote en suivant le guide d’installation du pilote GPU client Intel
Étape 1 : téléchargement et extraction
- Les utilisateurs Linux doivent télécharger le portable tgz IPEX-LLM llama.cpp et l’extraire dans un dossier
Étape 2 : configuration de l’exécution
- Ouvrir le « terminal » et accéder au dossier avec la commande
cd /PATH/TO/EXTRACTED/FOLDER - Certaines variables d’environnement sont nécessaires ou recommandées pour utiliser l’accélération GPU
- Définir
export SYCL_CACHE_PERSISTENT=1
- Définir
- Les utilisateurs de plusieurs GPU peuvent consulter les astuces pour savoir comment sélectionner un GPU précis
Étape 3 : exécution du modèle GGUF
- Télécharger ou copier un modèle GGUF de la communauté dans un répertoire local
- Après avoir défini le chemin du modèle, exécuter la commande
./llama-cli
FlashMoE pour DeepSeek V3/R1
- FlashMoE est un outil en ligne de commande basé sur llama.cpp, optimisé pour les modèles MoE
- Disponible sur plateforme Linux
- Modèles MoE GGUF testés : DeepSeek-V3-Q4_K_M, DeepSeek-V3-Q6_K, etc.
Astuces et dépannage
Erreur : périphériques sycl différents détectés
- Si des périphériques sycl différents sont détectés, les performances seront limitées par le périphérique le plus lent
- En définissant
SYCL_DEVICE_CHECK=0, il est possible de désactiver cette vérification et d’utiliser tous les périphériques
Utilisation de plusieurs GPU
- S’il y a plusieurs GPU Intel, l’exécution se fait par défaut sur tous les GPU
- Pour utiliser un GPU spécifique, définir la variable d’environnement
ONEAPI_DEVICE_SELECTOR
Variables d’environnement de performance
- Il est possible d’améliorer les performances avec le paramètre
SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS - Ce mode peut améliorer les performances, mais des exceptions peuvent se produire
Ce guide présente une méthode pour exécuter efficacement llama.cpp sur des GPU Intel, avec différents réglages et optimisations inclus.
Aucun commentaire pour le moment.