13 tokens par seconde atteints avec Qwen3 30B A3B sur 4 Raspberry Pi 5

(github.com/b4rtaz)

18 points par GN⁺ 2025-09-09 | 3 commentaires | Partager sur WhatsApp

Présentation d’un montage et benchmark exécutant le modèle quantifié A3B Q40 de Qwen3 30B MoE en regroupant 4 petites cartes Raspberry Pi comme nœuds d’inférence distribuée
Configuration réseau via un switch avec 1 ROOT + 3 WORKER (tous des Raspberry Pi 5 8GB)
La vitesse de génération de tokens a été mesurée à 14.33 tok/s pendant la phase d’évaluation et 13.04 tok/s pendant la phase de prédiction
Le modèle repose sur l’architecture Qwen3 MoE, avec 48 couches et 128 experts
En rendant possible l’exécution d’un modèle de langage performant sur du matériel peu coûteux, ce projet met en évidence le potentiel d’un cluster de Raspberry Pi et la possibilité de mener une recherche en IA économique

Vue d’ensemble du projet

Exécution du modèle Qwen3 30B A3B Q40 sur 4 Raspberry Pi 5 8GB avec Distributed Llama v0.16.0
- Conçu pour permettre l’exécution de grands modèles de langage sur des appareils à faible coût
- Connexion réseau via un switch TP-Link LS1008G
L’objectif principal est de faire tourner efficacement des modèles d’IA sans ressources de calcul haute performance
- Répartition du travail sur 4 appareils (1 root, 3 workers)
- Adresses IP : root (10.0.0.2), workers (10.0.0.1, 10.0.0.3, 10.0.0.4)

Configuration matérielle et réseau

Composition : un cluster de 4 Raspberry Pi 5 8GB
- Chaque appareil est relié au switch TP-Link LS1008G
- Le nœud root et les 3 nœuds workers communiquent via le réseau
Initialisation réseau : connexion réussie à tous les nœuds workers (10.0.0.1:9999, 10.0.0.3:9999, 10.0.0.4:9999)
- Fonctionnement réseau en mode non bloquant
- Transfert de données : en évaluation, 12084kB envoyés et 20085kB reçus
Utilisation CPU : calcul optimisé grâce à la prise en charge de Neon Dotprod FP16

Détails du modèle

Modèle : Qwen3 30B A3B Q40
- Architecture : Qwen3 MoE (Mixture of Experts)
- Nombre de couches : 48
- Nombre d’experts : 128, dont 8 experts actifs
- Dimensions : Dim 2048, QDim 4096, KvDim 512, HiddenDim 6144
Tokenizer : taille de vocabulaire de 151669, avec un léger décalage par rapport à la taille de vocabulaire du modèle de 151936
- Taille du vocabulaire général : 151643
- Taille du vocabulaire spécial : 26
Mémoire requise : 5513MB
- Longueur maximale de séquence : 4096
- NormEpsilon : 0.000001, RopeTheta : 10000000

Performances des benchmarks

Phase d’évaluation
- Nombre de batches : 32
- Nombre de tokens : 19
- Vitesse de génération : 14.33 tok/s (69.80ms/tok)
Phase de prédiction
- Nombre de tokens : 109
- Vitesse de génération : 13.04 tok/s (76.69ms/tok)
Détails des logs de prédiction :
- Chaque étape de prédiction prend environ 49 à 70ms, avec un temps de synchronisation de 14 à 94ms
- Données envoyées stables à 636kB et données reçues à 1057kB
- Exemples de tokens générés : "Of", "course", "Poland"
- Nombre de threads : 4
- Type float du buffer : Q80
- Longueur maximale de séquence : 4096

Points d’attention et limites (Notes & Caveats)

Un avertissement signale une incohérence entre Tokenizer vocab size et Model vocab size ; une vérification de la cohérence du tokenizer est donc nécessaire
A3B Q40 correspond à une quantification agressive, ce qui implique un compromis potentiel entre précision et qualité des réponses
Une configuration Pi 5 8GB × 4 reste contrainte par la mémoire et la puissance de calcul ; les résultats peuvent donc varier fortement selon la longueur du prompt, la concurrence et la qualité du réseau

Portée pratique

Un projet qui démontre la faisabilité d’une exécution IA à faible coût
Comme cas reproductible d’exécution distribuée d’un modèle MoE de classe 30B sur un cluster SBC peu coûteux, il peut servir de point de référence pour abaisser le seuil d’expérimentation en inférence légère on-premise et pour le développement
La présence de logs réseau et de synchronisation par token fournit des données utiles pour mesurer et ajuster le surcoût distribué
La combinaison framework distribué + modèle quantifié peut améliorer les performances par rapport au TCO dans des environnements edge ou de recherche personnelle

3 commentaires

seohc 2025-09-10

Les mini PC de la série N sont aussi bon marché, mais si on en regroupe quatre avec 16 Go chacun... en y repensant, on arrive sans doute au prix d’un 8845 avec 32 Go haha

ndrgrd 2025-09-10

Impressionnant. J’ai l’impression qu’on voit de plus en plus d’informations ces derniers temps sur l’exploitation de LLM à faible charge, et c’est une bonne chose.

developerjhp 2025-09-09

Incroyable..