Transformer différentiel
(arxiv.org)-
Les Transformer ont souvent tendance à accorder trop d’attention à des contextes non pertinents.
-
Diff Transformer propose une nouvelle approche qui amplifie l’attention portée au contexte pertinent et élimine le bruit.
-
Mécanisme d’attention différentielle
- Les scores d’attention sont calculés à partir de la différence entre deux cartes d’attention softmax distinctes.
- Cette soustraction élimine le bruit et favorise l’émergence de schémas d’attention clairsemés.
-
Résultats expérimentaux
- Dans les expériences de modélisation du langage, Diff Transformer surpasse les Transformer sur différentes tailles de modèles et configurations de tokens d’entraînement.
- Dans des applications pratiques, il offre des avantages notables pour la modélisation à long contexte, la recherche d’informations essentielles, l’atténuation des hallucinations, l’apprentissage in-context et la réduction des valeurs aberrantes d’activation.
-
Avantages pratiques
- Étant moins perturbé par des contextes non pertinents, il peut atténuer les hallucinations dans les tâches de questions-réponses et de résumé de texte.
- Il améliore non seulement la précision de l’apprentissage in-context, mais renforce aussi la robustesse face aux changements d’ordre.
-
Conclusion
- Diff Transformer s’impose comme une architecture très efficace et prometteuse pour faire progresser les grands modèles de langage.
Résumé de GN⁺
- Diff Transformer est une nouvelle architecture proposée pour dépasser les limites des Transformer, en se concentrant sur l’amplification de l’attention portée au contexte pertinent et l’élimination du bruit inutile.
- Cette recherche met en avant l’amélioration des performances des grands modèles de langage, en soulignant notamment ses avantages dans des applications concrètes comme la modélisation à long contexte.
- En étant moins perturbé par des contextes non pertinents, il contribue à atténuer les hallucinations et à améliorer la précision ainsi que la robustesse de l’apprentissage in-context.
1 commentaires
Commentaires Hacker News
Le mécanisme d’attention softmax classique a du mal à attribuer des poids d’attention proches de 0 aux informations non pertinentes. La nouvelle méthode résout ce problème, mais elle peut aussi produire des poids d’attention négatifs. Il est difficile de comprendre comment le réseau gère cela
Ce type de travail de détail est très intéressant. Le changement est minime, donc d’autres peuvent l’adopter facilement. Cependant, la dernière phrase de la section « 2 Differential Transformer » n’est pas claire, ce qui peut influencer la comparaison
Dans le nouveau monde du machine learning, il est difficile de comprendre pourquoi ce type de méthode fonctionne. L’analogie avec le casque à réduction de bruit aide, mais ici on ne peut pas distinguer clairement le signal du bruit
Differential attention supprime le bruit d’attention en utilisant la différence entre deux fonctions d’attention softmax. Cette architecture utilise deux fois plus de mémoire d’attention pour obtenir un modèle de meilleure qualité, ou bien moins de paramètres pour une qualité similaire
Si les deux groupes d’attention apprennent la même chose, leurs masques d’attention se soustraient mutuellement, l’attention tombe à 0 et la perte augmente. Pour réduire la perte, ils doivent apprendre des choses différentes. Un groupe apprend à se concentrer sur le contexte pertinent, l’autre sur le contexte non pertinent
Le réglage λᵢₙᵢₜ = 0.8 − 0.6 × exp(−0.3 · (l − 1)) fonctionne bien empiriquement. Je me demande d’où vient cette formule
Je me demande dans quelle mesure la suppression du bruit positionnel est utile. J’aimerais voir un tableau comparant la version alibi et la baseline alibi. Félicitations aux chercheurs
Je me demande ce qui est perdu ici. Je me demande quel est l’impact sur la créativité ou sur la capacité d’interpolation entre les concepts. J’ai l’impression que les hallucinations et la créativité sont très liées
La résolution du problème est bonne, mais je pense que l’approche est mauvaise. Il faudrait saisir l’ensemble du contexte de manière hiérarchique. Si l’on calcule un vecteur de différence à partir de la même entrée que le vecteur d’attention, on ne sait pas comment corriger correctement le vecteur d’attention
Je me demande si le softmax ne peut pas pousser une valeur jusqu’à 0, mais que la soustraction de deux cartes softmax, elle, peut produire 0