Le modèle Qwen de 30 milliards de paramètres fonctionne en temps réel sur un Raspberry Pi

(byteshape.com)

22 points par GN⁺ 2026-01-07 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Le modèle Qwen3-30B-A3B-Instruct-2507 fonctionne en temps réel sur un Raspberry Pi 5 (16 Go), tout en maintenant 8,03 TPS et 94,18 % de la qualité BF16
Grâce à la méthode d’apprentissage de longueur de bit ShapeLearn de ByteShape, l’équilibre entre vitesse et qualité est optimisé dans les limites mémoire de chaque appareil
Par rapport à Unsloth et MagicQuant, il atteint soit un TPS plus élevé à qualité égale, soit une meilleure qualité à TPS égal
Sur CPU comme sur GPU (notamment RTX 5090 et 4080), la zone proche de 4 bits apparaît comme le point de performance optimal, et réduire le nombre de bits n’accélère pas toujours l’exécution
Globalement, les modèles ByteShape offrent de bonnes performances de l’edge au datacenter avec une approche consistant à « considérer la mémoire comme un budget et optimiser le TPS/la qualité »

Aperçu de l’optimisation basée sur ShapeLearn

ByteShape optimise l’exécution des modèles en se concentrant sur la vitesse perçue et la qualité des réponses
- ShapeLearn apprend le type de données des poids de chaque tenseur (bitlength) afin de maximiser simultanément le TPS (tokens par seconde) et la qualité de sortie
- L’objectif n’est pas simplement de réduire la taille des fichiers, mais d’améliorer le véritable compromis entre vitesse et qualité
Dans l’environnement llama.cpp, réduire le nombre de bits n’améliore pas toujours la vitesse, et le choix du kernel ainsi que les surcoûts influencent fortement les performances
ByteShape considère la mémoire comme un « budget à faire rentrer », puis ajuste ensuite en priorité le TPS et la qualité

Sur Raspberry Pi 5 (16 Go), le modèle 30B conserve 8,5 TPS et plus de 92 % de précision
- Le modèle Q3_K_S-2.70bpw [KQ-2] offre une réactivité adaptée à la conversation en temps réel
Sur les modèles orientés précision, ByteShape atteint un taux d’erreur relatif de 1,1 à 1,3 % (environ 98,8 % de précision), soit jusqu’à 1,87 fois moins d’erreurs qu’Unsloth
- Dans le même environnement, ils maintiennent 5 à 6 TPS, ce qui les rend adaptés aux tâches privilégiant la précision
Le modèle orienté vitesse (Q3_K_S-3.25bpw [KQ-5]) est lui aussi plus petit et plus rapide qu’Unsloth, tout en gardant un avantage en précision
De nombreux modèles d’Unsloth et de MagicQuant ne peuvent pas être exécutés sur Pi en raison des contraintes mémoire

Dans un environnement où tous les modèles tiennent en mémoire, ByteShape obtient une meilleure qualité et un TPS plus élevé que Unsloth et MagicQuant
Segment orienté qualité : le modèle IQ4_XS-4.67bpw [KQ-9] de ByteShape affiche un taux d’erreur 1,44 fois plus faible que le Q6_K d’Unsloth, avec un TPS supérieur
Segment équilibré : le modèle Q3_K_S-3.25bpw de ByteShape présente un taux d’erreur 1,73 fois plus faible que celui d’Unsloth, et surpasse MagicQuant en précision comme en vitesse
ByteShape est le seul à couvrir à la fois la zone des 26+ TPS et celle de haute qualité

Sur GPU, les performances dépendent du choix du kernel et de l’efficacité d’accès à la VRAM
- La zone proche de 4 bits (~4bpw) est confirmée comme le sweet spot pour le TPS et la qualité
RTX 5090 (32 Go)
- Unsloth, MagicQuant et ByteShape se situent tous entre 302 et 303 TPS dans la zone 4b, avec une précision de 98,4 à 98,9 %
- Le modèle IQ4_XS-4.67bpw de ByteShape atteint la meilleure précision avec 272,98 TPS et 99,75 % de précision
- Il surpasse Unsloth Q6_K (6.57bpw, 264.88 TPS, 99.64 %) et MagicQuant mxfp4 (5.46bpw, 240.42 TPS, 99.32 %)
RTX 4080 (16 Go)
- Les contraintes de VRAM empêchent l’usage des modèles 4b ; dans les mêmes 16 Go, ByteShape est supérieur à Unsloth en TPS comme en précision
- ByteShape IQ4_XS-3.87bpw : 214.81 TPS, 98.66 % de précision
  - Par rapport à Unsloth Q3_K_XL : 1,59 fois moins d’erreurs et 9,4 % de TPS en plus
  - Par rapport à Unsloth IQ2_M : 2,54 fois moins d’erreurs

Réduire à 3 bits ou moins ne garantit pas un gain de vitesse
- Les GPU fonctionnent par warps de 32 threads et sont optimisés pour certains formats de données et schémas d’accès
- La VRAM lit par blocs alignés de 32 octets, de sorte que des données plus petites peuvent consommer la même bande passante
- Une faible largeur en bits peut au contraire ralentir l’exécution à cause de la hausse du surcoût de décodage
Exemple : sur RTX 5090, iq4_xs prend 54µs contre 62µs pour iq3_xxs → 25 % de capacité en moins se traduit par une baisse de vitesse de 13 %
ShapeLearn prend en compte ces caractéristiques matérielles pour choisir le type de données de chaque tenseur et garantir à la fois vitesse et précision

Tous les modèles ont été mesurés avec le même harness d’évaluation pour le TPS et un score de qualité normalisé (par rapport au BF16)
- L’évaluation de la qualité agrège les résultats de MMLU, GSM8K, IFEval, LiveCodeBench V4
Conclusions clés :
- « Traitez la mémoire comme une contrainte, pas comme un objectif. »
- Une fois le modèle chargé sur l’appareil, c’est la courbe d’équilibre entre TPS et qualité qui devient essentielle
- ByteShape atteint sur tous les appareils soit une vitesse plus élevée à qualité égale, soit une meilleure qualité à vitesse égale
Sur Raspberry Pi 5, le modèle Q3_K_S-2.70bpw [KQ-2] convient à la conversation en temps réel
Le même principe s’applique aussi aux grands environnements CPU/GPU : « d’abord faire tenir, puis optimiser. »
ByteShape prévoit de continuer à publier davantage de modèles optimisés par appareil