1 points par GN⁺ 2023-07-25 | 1 commentaires | Partager sur WhatsApp
  • La formule d’attention de l’IA moderne contient une erreur off-by-one qui complique la compression et le déploiement des modèles Transformer.
  • Cette erreur est liée à des poids aberrants dans le modèle, nettement plus élevés que les autres, ce qui entraîne une baisse des performances et complique la quantification.
  • Le bug est lié à la fonction softmax utilisée dans le mécanisme d’attention, qui n’est pas adaptée à cette tâche.
  • La solution proposée consiste à apporter une petite modification à la fonction softmax, en ajoutant 1 au dénominateur afin que les têtes d’attention puissent « ne rien dire » lorsqu’elles ne peuvent pas ajouter d’information.
  • Cette modification, appelée Softmax Super-Mod ou QuietAttention, devrait résoudre la boucle de rétroaction des valeurs aberrantes et améliorer la quantification.
  • Des expériences permettent de vérifier l’efficacité de cette solution en ajoutant en préfixe un vecteur nul au contexte d’entrée et en observant la kurtose des poids ainsi que la norme infinie des activations.
  • L’auteur invite à collaborer et à mener des expériences pour approfondir et valider cette solution.

1 commentaires

 
GN⁺ 2023-07-25
Discussion sur Hacker News
  • L’auteur propose d’ajouter 1 au dénominateur du softmax.
  • Ce changement permet au réseau de ne pas choisir une forte confiance pour un élément en attribuant des poids élevés ou faibles.
  • Certains commentateurs doutent de l’importance de ce changement et suggèrent que des astuces similaires ont déjà été utilisées auparavant.
  • D’autres saluent le ton non académique de l’article et la volonté d’explorer de nouvelles idées.
  • Un commentateur partage une expérience personnelle où il a découvert une erreur dans un algorithme populaire, d’abord ignorée par les autres.
  • Un autre félicite l’auteur pour avoir identifié un vrai problème et proposé une solution simple.
  • Cependant, il demande à l’auteur de fournir davantage de preuves et d’explications pour étayer l’affirmation selon laquelle cette solution résoudrait les boucles de rétroaction liées aux valeurs aberrantes.
  • Certains commentateurs estiment que des expériences supplémentaires et davantage de réglages fins sont nécessaires pour valider la solution proposée.
  • Un commentateur mentionne un article de 2020 et propose une autre formule d’attention pouvant résoudre le problème de quantification.
  • Il est mentionné que cette méthode consistant à ajouter 1 au dénominateur était souvent utilisée avant que l’usage de tokens factices ne devienne courant.
  • Certains commentateurs critiquent le ton de l’auteur et se disent surpris du manque de connaissance de cette technique dans la communauté de recherche.