- Meta a lancé des modèles Llama quantifiés allégés pouvant s’exécuter sur des appareils mobiles
- Conçus pour des applications à contexte court de 8K ou moins
- Les modèles quantifiés atteignent une accélération de 2 à 4 fois, une réduction de 56 % de la taille du modèle et une baisse de 41 % de l’utilisation mémoire.
- Technique de quantification
- Utilisation de Quantization-Aware Training (QAT) et de la méthode SpinQuant pour les modèles Llama 3.2 1B et 3B.
- QAT privilégie la précision, tandis que SpinQuant privilégie la portabilité.
- Les deux méthodes de quantification sont prises en charge via le framework ExecuTorch de PyTorch.
- Optimisation pour appareils mobiles
- Conçus pour fonctionner sur des SoC Qualcomm et MediaTek.
- Les tests sur un OnePlus 12 sous Android montrent une forte réduction de la taille du modèle et de l’utilisation mémoire.
- Les performances sont optimisées en tirant parti du CPU mobile et du NPU.
- Configuration de quantification
- Conçue en tenant compte du framework d’inférence ExecuTorch de PyTorch et du backend CPU Arm.
- Toutes les couches linéaires sont quantifiées en groupes de 4 bits, et les activations utilisent une quantification dynamique en 8 bits.
- Entraînement sensible à la quantification (QAT) et LoRA
- Utilisation du QAT, qui simule les effets de la quantification pendant l’entraînement des modèles Llama 3.2, afin d’optimiser les performances en environnement de faible précision
- Pour initialiser le QAT, un checkpoint BF16 de Llama 3.2 est utilisé, puis un entraînement SFT supplémentaire est effectué avec QAT
- Le backbone du modèle QAT est figé et un nouvel entraînement SFT est réalisé avec des adaptateurs LoRA appliqués
- Le QAT est exécuté à l’aide de l’API
torchao
- SpinQuant
- Moins précis que QAT + LoRA, mais très portable car il peut fonctionner sans accès au dataset.
- Permet de quantifier les modèles selon divers objectifs matériels et cas d’usage.
- Résultats
- L’approche QLoRA montre la meilleure qualité globale
- Par rapport à BF16, la latence de décodage s’améliore en moyenne de 2,5 fois et la latence de préremplissage de 4,2 fois
- La taille du modèle diminue en moyenne de 56 % et l’utilisation mémoire de 41 %
- Les mesures ont été réalisées sur un OnePlus 12 sous Android ; sur les appareils iOS, la précision est similaire mais les performances n’ont pas été évaluées
Le récapitulatif de GN⁺
- Les modèles Llama quantifiés de Meta visent à alléger l’exécution sur mobile et à en optimiser les performances
- Grâce aux techniques QAT et SpinQuant, Meta propose des modèles quantifiés qui prennent en compte à la fois la précision et la portabilité
- Les performances sont maximisées en exploitant le CPU mobile et le NPU, avec une prise en charge de divers matériels
- Une collaboration étroite avec différentes plateformes mobiles et partenaires semble avoir permis d’aboutir à une solution applicable à des produits réels
- Les modèles Llama de Meta sont jugés compétitifs en matière d’ouverture, de capacité de modification et d’efficacité coûts, et devraient offrir une expérience IA puissante sur mobile grâce à une innovation continue
Aucun commentaire pour le moment.