Addition pour des modèles de langage économes en énergie
-
Contexte de la recherche
- Les grands réseaux de neurones consacrent l’essentiel de leurs calculs aux multiplications de tenseurs en virgule flottante.
- Cette étude montre qu’il est possible d’approximer un multiplieur en virgule flottante par un additionneur entier unique avec une grande précision.
-
Algorithme L-Mul
- Proposition de L-Mul, un algorithme de multiplication à complexité linéaire qui approxime la multiplication de nombres en virgule flottante par une opération d’addition entière.
- Ce nouvel algorithme atteint une précision supérieure tout en consommant moins de ressources de calcul qu’une multiplication en virgule flottante sur 8 bits.
- Comme la multiplication de nombres en virgule flottante consomme nettement plus d’énergie qu’une addition entière, l’application de l’opération L-Mul au matériel de traitement des tenseurs peut réduire jusqu’à 95 % le coût énergétique des multiplications élément par élément de tenseurs en virgule flottante, et jusqu’à 80 % celui des produits scalaires.
-
Évaluation théorique et expérimentale
- L’espérance théorique de l’erreur de L-Mul a été calculée, et l’algorithme a été évalué sur diverses tâches textuelles, visuelles et symboliques, notamment la compréhension du langage naturel, le raisonnement structuré, les mathématiques et les questions-réponses de bon sens.
- Les expériences d’analyse numérique concordent avec les estimations théoriques de l’erreur et montrent qu’un L-Mul à mantisse de 4 bits atteint une précision comparable à
float8_e4m3, tandis qu’un L-Mul à mantisse de 3 bits surpassefloat8_e5m2. - Des résultats de benchmark notables montrent que l’application directe de L-Mul au mécanisme d’attention entraîne une perte presque nulle.
- Dans les modèles transformer, remplacer toutes les multiplications en virgule flottante par un L-Mul à mantisse de 3 bits permet d’atteindre une précision équivalente à l’utilisation de
float8_e4m3avec précision d’accumulation, aussi bien en fine-tuning qu’en inférence.
Résumé de GN⁺
- L’algorithme L-Mul propose une méthode permettant d’améliorer fortement l’efficacité énergétique tout en conservant une grande précision.
- Il montre qu’il est possible de répondre au problème de la consommation énergétique des opérations en virgule flottante, en particulier pour les grands modèles de réseaux de neurones.
- Cette recherche pourrait susciter un fort intérêt dans les domaines où l’économie d’énergie est cruciale ; parmi les projets aux fonctionnalités proches figure notamment TensorFlow Lite de Google.
Aucun commentaire pour le moment.