2 points par GN⁺ 2024-10-25 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Meta a lancé des modèles Llama quantifiés allégés pouvant s’exécuter sur des appareils mobiles
  • Conçus pour des applications à contexte court de 8K ou moins
  • Les modèles quantifiés atteignent une accélération de 2 à 4 fois, une réduction de 56 % de la taille du modèle et une baisse de 41 % de l’utilisation mémoire.
  • Technique de quantification
    • Utilisation de Quantization-Aware Training (QAT) et de la méthode SpinQuant pour les modèles Llama 3.2 1B et 3B.
    • QAT privilégie la précision, tandis que SpinQuant privilégie la portabilité.
    • Les deux méthodes de quantification sont prises en charge via le framework ExecuTorch de PyTorch.
  • Optimisation pour appareils mobiles
    • Conçus pour fonctionner sur des SoC Qualcomm et MediaTek.
    • Les tests sur un OnePlus 12 sous Android montrent une forte réduction de la taille du modèle et de l’utilisation mémoire.
    • Les performances sont optimisées en tirant parti du CPU mobile et du NPU.
  • Configuration de quantification
    • Conçue en tenant compte du framework d’inférence ExecuTorch de PyTorch et du backend CPU Arm.
    • Toutes les couches linéaires sont quantifiées en groupes de 4 bits, et les activations utilisent une quantification dynamique en 8 bits.
  • Entraînement sensible à la quantification (QAT) et LoRA
    • Utilisation du QAT, qui simule les effets de la quantification pendant l’entraînement des modèles Llama 3.2, afin d’optimiser les performances en environnement de faible précision
    • Pour initialiser le QAT, un checkpoint BF16 de Llama 3.2 est utilisé, puis un entraînement SFT supplémentaire est effectué avec QAT
    • Le backbone du modèle QAT est figé et un nouvel entraînement SFT est réalisé avec des adaptateurs LoRA appliqués
    • Le QAT est exécuté à l’aide de l’API torchao
  • SpinQuant
    • Moins précis que QAT + LoRA, mais très portable car il peut fonctionner sans accès au dataset.
    • Permet de quantifier les modèles selon divers objectifs matériels et cas d’usage.
  • Résultats
    • L’approche QLoRA montre la meilleure qualité globale
    • Par rapport à BF16, la latence de décodage s’améliore en moyenne de 2,5 fois et la latence de préremplissage de 4,2 fois
    • La taille du modèle diminue en moyenne de 56 % et l’utilisation mémoire de 41 %
    • Les mesures ont été réalisées sur un OnePlus 12 sous Android ; sur les appareils iOS, la précision est similaire mais les performances n’ont pas été évaluées

Le récapitulatif de GN⁺

  • Les modèles Llama quantifiés de Meta visent à alléger l’exécution sur mobile et à en optimiser les performances
  • Grâce aux techniques QAT et SpinQuant, Meta propose des modèles quantifiés qui prennent en compte à la fois la précision et la portabilité
  • Les performances sont maximisées en exploitant le CPU mobile et le NPU, avec une prise en charge de divers matériels
  • Une collaboration étroite avec différentes plateformes mobiles et partenaires semble avoir permis d’aboutir à une solution applicable à des produits réels
  • Les modèles Llama de Meta sont jugés compétitifs en matière d’ouverture, de capacité de modification et d’efficacité coûts, et devraient offrir une expérience IA puissante sur mobile grâce à une innovation continue

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.