22 points par GN⁺ 2026-01-07 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Le modèle Qwen3-30B-A3B-Instruct-2507 fonctionne en temps réel sur un Raspberry Pi 5 (16 Go), tout en maintenant 8,03 TPS et 94,18 % de la qualité BF16
  • Grâce à la méthode d’apprentissage de longueur de bit ShapeLearn de ByteShape, l’équilibre entre vitesse et qualité est optimisé dans les limites mémoire de chaque appareil
  • Par rapport à Unsloth et MagicQuant, il atteint soit un TPS plus élevé à qualité égale, soit une meilleure qualité à TPS égal
  • Sur CPU comme sur GPU (notamment RTX 5090 et 4080), la zone proche de 4 bits apparaît comme le point de performance optimal, et réduire le nombre de bits n’accélère pas toujours l’exécution
  • Globalement, les modèles ByteShape offrent de bonnes performances de l’edge au datacenter avec une approche consistant à « considérer la mémoire comme un budget et optimiser le TPS/la qualité »

Aperçu de l’optimisation basée sur ShapeLearn

  • ByteShape optimise l’exécution des modèles en se concentrant sur la vitesse perçue et la qualité des réponses
    • ShapeLearn apprend le type de données des poids de chaque tenseur (bitlength) afin de maximiser simultanément le TPS (tokens par seconde) et la qualité de sortie
    • L’objectif n’est pas simplement de réduire la taille des fichiers, mais d’améliorer le véritable compromis entre vitesse et qualité
  • Dans l’environnement llama.cpp, réduire le nombre de bits n’améliore pas toujours la vitesse, et le choix du kernel ainsi que les surcoûts influencent fortement les performances
  • ByteShape considère la mémoire comme un « budget à faire rentrer », puis ajuste ensuite en priorité le TPS et la qualité

Performances sur Raspberry Pi 5

  • Sur Raspberry Pi 5 (16 Go), le modèle 30B conserve 8,5 TPS et plus de 92 % de précision
    • Le modèle Q3_K_S-2.70bpw [KQ-2] offre une réactivité adaptée à la conversation en temps réel
  • Sur les modèles orientés précision, ByteShape atteint un taux d’erreur relatif de 1,1 à 1,3 % (environ 98,8 % de précision), soit jusqu’à 1,87 fois moins d’erreurs qu’Unsloth
    • Dans le même environnement, ils maintiennent 5 à 6 TPS, ce qui les rend adaptés aux tâches privilégiant la précision
  • Le modèle orienté vitesse (Q3_K_S-3.25bpw [KQ-5]) est lui aussi plus petit et plus rapide qu’Unsloth, tout en gardant un avantage en précision
  • De nombreux modèles d’Unsloth et de MagicQuant ne peuvent pas être exécutés sur Pi en raison des contraintes mémoire

Performances sur Intel i7 (64 Go)

  • Dans un environnement où tous les modèles tiennent en mémoire, ByteShape obtient une meilleure qualité et un TPS plus élevé que Unsloth et MagicQuant
  • Segment orienté qualité : le modèle IQ4_XS-4.67bpw [KQ-9] de ByteShape affiche un taux d’erreur 1,44 fois plus faible que le Q6_K d’Unsloth, avec un TPS supérieur
  • Segment équilibré : le modèle Q3_K_S-3.25bpw de ByteShape présente un taux d’erreur 1,73 fois plus faible que celui d’Unsloth, et surpasse MagicQuant en précision comme en vitesse
  • ByteShape est le seul à couvrir à la fois la zone des 26+ TPS et celle de haute qualité

Comparaison des performances GPU (RTX 5090 / RTX 4080)

  • Sur GPU, les performances dépendent du choix du kernel et de l’efficacité d’accès à la VRAM
    • La zone proche de 4 bits (~4bpw) est confirmée comme le sweet spot pour le TPS et la qualité
  • RTX 5090 (32 Go)
    • Unsloth, MagicQuant et ByteShape se situent tous entre 302 et 303 TPS dans la zone 4b, avec une précision de 98,4 à 98,9 %
    • Le modèle IQ4_XS-4.67bpw de ByteShape atteint la meilleure précision avec 272,98 TPS et 99,75 % de précision
    • Il surpasse Unsloth Q6_K (6.57bpw, 264.88 TPS, 99.64 %) et MagicQuant mxfp4 (5.46bpw, 240.42 TPS, 99.32 %)
  • RTX 4080 (16 Go)
    • Les contraintes de VRAM empêchent l’usage des modèles 4b ; dans les mêmes 16 Go, ByteShape est supérieur à Unsloth en TPS comme en précision
    • ByteShape IQ4_XS-3.87bpw : 214.81 TPS, 98.66 % de précision
      • Par rapport à Unsloth Q3_K_XL : 1,59 fois moins d’erreurs et 9,4 % de TPS en plus
      • Par rapport à Unsloth IQ2_M : 2,54 fois moins d’erreurs

Le paradoxe du nombre de bits et de la vitesse

  • Réduire à 3 bits ou moins ne garantit pas un gain de vitesse
    • Les GPU fonctionnent par warps de 32 threads et sont optimisés pour certains formats de données et schémas d’accès
    • La VRAM lit par blocs alignés de 32 octets, de sorte que des données plus petites peuvent consommer la même bande passante
    • Une faible largeur en bits peut au contraire ralentir l’exécution à cause de la hausse du surcoût de décodage
  • Exemple : sur RTX 5090, iq4_xs prend 54µs contre 62µs pour iq3_xxs25 % de capacité en moins se traduit par une baisse de vitesse de 13 %
  • ShapeLearn prend en compte ces caractéristiques matérielles pour choisir le type de données de chaque tenseur et garantir à la fois vitesse et précision

Méthode d’évaluation et conclusion

  • Tous les modèles ont été mesurés avec le même harness d’évaluation pour le TPS et un score de qualité normalisé (par rapport au BF16)
    • L’évaluation de la qualité agrège les résultats de MMLU, GSM8K, IFEval, LiveCodeBench V4
  • Conclusions clés :
    • « Traitez la mémoire comme une contrainte, pas comme un objectif. »
    • Une fois le modèle chargé sur l’appareil, c’est la courbe d’équilibre entre TPS et qualité qui devient essentielle
    • ByteShape atteint sur tous les appareils soit une vitesse plus élevée à qualité égale, soit une meilleure qualité à vitesse égale
  • Sur Raspberry Pi 5, le modèle Q3_K_S-2.70bpw [KQ-2] convient à la conversation en temps réel
  • Le même principe s’applique aussi aux grands environnements CPU/GPU : « d’abord faire tenir, puis optimiser. »
  • ByteShape prévoit de continuer à publier davantage de modèles optimisés par appareil

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.