- La formule d’attention de l’IA moderne contient une erreur off-by-one qui complique la compression et le déploiement des modèles Transformer.
- Cette erreur est liée à des poids aberrants dans le modèle, nettement plus élevés que les autres, ce qui entraîne une baisse des performances et complique la quantification.
- Le bug est lié à la fonction softmax utilisée dans le mécanisme d’attention, qui n’est pas adaptée à cette tâche.
- La solution proposée consiste à apporter une petite modification à la fonction softmax, en ajoutant 1 au dénominateur afin que les têtes d’attention puissent « ne rien dire » lorsqu’elles ne peuvent pas ajouter d’information.
- Cette modification, appelée Softmax Super-Mod ou QuietAttention, devrait résoudre la boucle de rétroaction des valeurs aberrantes et améliorer la quantification.
- Des expériences permettent de vérifier l’efficacité de cette solution en ajoutant en préfixe un vecteur nul au contexte d’entrée et en observant la kurtose des poids ainsi que la norme infinie des activations.
- L’auteur invite à collaborer et à mener des expériences pour approfondir et valider cette solution.
1 commentaires
Discussion sur Hacker News