2 points par GN⁺ 2024-10-10 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Addition pour des modèles de langage économes en énergie

  • Contexte de la recherche

    • Les grands réseaux de neurones consacrent l’essentiel de leurs calculs aux multiplications de tenseurs en virgule flottante.
    • Cette étude montre qu’il est possible d’approximer un multiplieur en virgule flottante par un additionneur entier unique avec une grande précision.
  • Algorithme L-Mul

    • Proposition de L-Mul, un algorithme de multiplication à complexité linéaire qui approxime la multiplication de nombres en virgule flottante par une opération d’addition entière.
    • Ce nouvel algorithme atteint une précision supérieure tout en consommant moins de ressources de calcul qu’une multiplication en virgule flottante sur 8 bits.
    • Comme la multiplication de nombres en virgule flottante consomme nettement plus d’énergie qu’une addition entière, l’application de l’opération L-Mul au matériel de traitement des tenseurs peut réduire jusqu’à 95 % le coût énergétique des multiplications élément par élément de tenseurs en virgule flottante, et jusqu’à 80 % celui des produits scalaires.
  • Évaluation théorique et expérimentale

    • L’espérance théorique de l’erreur de L-Mul a été calculée, et l’algorithme a été évalué sur diverses tâches textuelles, visuelles et symboliques, notamment la compréhension du langage naturel, le raisonnement structuré, les mathématiques et les questions-réponses de bon sens.
    • Les expériences d’analyse numérique concordent avec les estimations théoriques de l’erreur et montrent qu’un L-Mul à mantisse de 4 bits atteint une précision comparable à float8_e4m3, tandis qu’un L-Mul à mantisse de 3 bits surpasse float8_e5m2.
    • Des résultats de benchmark notables montrent que l’application directe de L-Mul au mécanisme d’attention entraîne une perte presque nulle.
    • Dans les modèles transformer, remplacer toutes les multiplications en virgule flottante par un L-Mul à mantisse de 3 bits permet d’atteindre une précision équivalente à l’utilisation de float8_e4m3 avec précision d’accumulation, aussi bien en fine-tuning qu’en inférence.

Résumé de GN⁺

  • L’algorithme L-Mul propose une méthode permettant d’améliorer fortement l’efficacité énergétique tout en conservant une grande précision.
  • Il montre qu’il est possible de répondre au problème de la consommation énergétique des opérations en virgule flottante, en particulier pour les grands modèles de réseaux de neurones.
  • Cette recherche pourrait susciter un fort intérêt dans les domaines où l’économie d’énergie est cruciale ; parmi les projets aux fonctionnalités proches figure notamment TensorFlow Lite de Google.

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.