Meta dévoile des modèles Llama quantifiés, plus rapides et moins gourmands en mémoire

(ai.meta.com)

2 points par GN⁺ 2024-10-25 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Meta a lancé des modèles Llama quantifiés allégés pouvant s’exécuter sur des appareils mobiles
Conçus pour des applications à contexte court de 8K ou moins
Les modèles quantifiés atteignent une accélération de 2 à 4 fois, une réduction de 56 % de la taille du modèle et une baisse de 41 % de l’utilisation mémoire.
Technique de quantification
- Utilisation de Quantization-Aware Training (QAT) et de la méthode SpinQuant pour les modèles Llama 3.2 1B et 3B.
- QAT privilégie la précision, tandis que SpinQuant privilégie la portabilité.
- Les deux méthodes de quantification sont prises en charge via le framework ExecuTorch de PyTorch.
Optimisation pour appareils mobiles
- Conçus pour fonctionner sur des SoC Qualcomm et MediaTek.
- Les tests sur un OnePlus 12 sous Android montrent une forte réduction de la taille du modèle et de l’utilisation mémoire.
- Les performances sont optimisées en tirant parti du CPU mobile et du NPU.
Configuration de quantification
- Conçue en tenant compte du framework d’inférence ExecuTorch de PyTorch et du backend CPU Arm.
- Toutes les couches linéaires sont quantifiées en groupes de 4 bits, et les activations utilisent une quantification dynamique en 8 bits.
Entraînement sensible à la quantification (QAT) et LoRA
- Utilisation du QAT, qui simule les effets de la quantification pendant l’entraînement des modèles Llama 3.2, afin d’optimiser les performances en environnement de faible précision
- Pour initialiser le QAT, un checkpoint BF16 de Llama 3.2 est utilisé, puis un entraînement SFT supplémentaire est effectué avec QAT
- Le backbone du modèle QAT est figé et un nouvel entraînement SFT est réalisé avec des adaptateurs LoRA appliqués
- Le QAT est exécuté à l’aide de l’API torchao
SpinQuant
- Moins précis que QAT + LoRA, mais très portable car il peut fonctionner sans accès au dataset.
- Permet de quantifier les modèles selon divers objectifs matériels et cas d’usage.
Résultats
- L’approche QLoRA montre la meilleure qualité globale
- Par rapport à BF16, la latence de décodage s’améliore en moyenne de 2,5 fois et la latence de préremplissage de 4,2 fois
- La taille du modèle diminue en moyenne de 56 % et l’utilisation mémoire de 41 %
- Les mesures ont été réalisées sur un OnePlus 12 sous Android ; sur les appareils iOS, la précision est similaire mais les performances n’ont pas été évaluées

Le récapitulatif de GN⁺

Les modèles Llama quantifiés de Meta visent à alléger l’exécution sur mobile et à en optimiser les performances
Grâce aux techniques QAT et SpinQuant, Meta propose des modèles quantifiés qui prennent en compte à la fois la précision et la portabilité
Les performances sont maximisées en exploitant le CPU mobile et le NPU, avec une prise en charge de divers matériels
Une collaboration étroite avec différentes plateformes mobiles et partenaires semble avoir permis d’aboutir à une solution applicable à des produits réels
Les modèles Llama de Meta sont jugés compétitifs en matière d’ouverture, de capacité de modification et d’efficacité coûts, et devraient offrir une expérience IA puissante sur mobile grâce à une innovation continue

Meta dévoile des modèles Llama quantifiés, plus rapides et moins gourmands en mémoire

Le récapitulatif de GN⁺

À lire aussi

Aucun commentaire pour le moment.