- L’architecture Titans et le cadre MIRAS sont conçus pour que les modèles d’IA mettent à jour leur mémoire critique en temps réel, tout en traitant rapidement des contextes massifs.
- Titans combine la vitesse des RNN et la précision des Transformers, en stockant de manière sélective dans la mémoire à long terme les informations ayant un fort niveau de surprise (surprise).
- MIRAS sert de schéma théorique qui interprète de manière unifiée les différents modèles de séquences, en systématisant la structure de mémoire, les biais, l’oubli et l’optimisation.
- Les résultats expérimentaux montrent que Titans et les variantes de MIRAS (YAAD, MONETA, MEMORA) surpassent des modèles récents tels que Transformer++ et Mamba-2 en gestion de longs contextes et en efficacité.
- Cette recherche montre une transition vers une nouvelle génération de modèles d’IA à long contexte, combinant l’efficacité des RNN et la capacité expressive des Transformers.
Aperçu de Titans et MIRAS
- L’architecture Titans et le cadre MIRAS sont conçus pour que l’IA mette à jour sa mémoire en temps réel pendant l’exécution et traite de grands contextes.
- Le mécanisme d’attention des Transformers existants voit son coût de calcul croître fortement avec la longueur des séquences.
- Titans et MIRAS permettent de surmonter ces limites et d’autoriser la compréhension de contexte long et l’adaptation en temps réel.
- Titans fournit une structure de modèle concrète, tandis que MIRAS joue le rôle d’un plan théorique généralisé.
- Les deux systèmes développent le concept de mémorisation au moment du test (test-time memorization) pour intégrer de nouvelles informations pendant l’exécution, sans réentraîner.
Titans : apprentissage contextuel en temps réel
- Titans distingue la mémoire à court terme (mécanisme d’attention) de la mémoire à long terme (module basé sur un réseau neuronal) pour imiter la structure de la mémoire humaine.
- Le module de mémoire à long terme a une forme de perceptron multi-couches (MLP) et utilise un réseau neuronal profond au lieu de vecteurs fixes, ce qui permet un résumé d’information plus riche.
- Le concept central est la métrique de surprise (surprise metric).
- Plus une entrée diffère de la mémoire existante, plus elle est considérée comme surprenante et elle est stockée dans la mémoire à long terme.
- Exemple : le mot attendu (‘cat’) a une faible surprise, tandis qu’une entrée inattendue (‘banana peel’) est traitée avec une surprise élevée.
- Titans combine momentum et oublier (weight decay).
- Le momentum reflète la continuité du contexte récent et enregistre également les informations associées.
- L’oubli supprime les informations inutiles pour maintenir efficacement la capacité mémoire.
MIRAS : une perspective intégrée des modèles de séquence
- MIRAS interprète tous les modèles de séquence comme des systèmes de mémoire associative.
- Il définit que différents modèles résolvent fondamentalement le même problème : combiner efficacement les nouvelles informations avec la mémoire existante.
- MIRAS définit les modèles via quatre éléments de conception.
- Structure de mémoire : forme de stockage de l’information (vecteur, matrice, MLP, etc.)
- Biais d’attention : détermine quelles informations le modèle privilégie
- Porte de rétention (retention gate) : mécanisme de régularisation qui ajuste l’oubli
- Algorithme de mémoire : méthode d’optimisation pour la mise à jour de la mémoire
- Il explore des fonctions objectif et des régularisations non euclidiennes (non-Euclidean) pour dépasser la limitation des modèles dépendant de la MSE ou de la similarité au produit scalaire.
Modèles basés sur MIRAS
- YAAD : une architecture utilisant la Huber loss, moins sensible aux erreurs d’entrée ou aux valeurs aberrantes.
- MONETA : applique des normes généralisées (generalized norms) pour garantir une mémoire à long terme stable.
- MEMORA : contraint la mémoire comme une carte probabiliste afin d’assurer une intégration équilibrée de l’information.
- Les trois modèles atteignent une performance de mémoire à long terme robuste même sans attention.
Résultats expérimentaux et performances
- Les modèles Titans et les variantes de MIRAS ont été évalués par rapport à des architectures récentes comme Transformer++, Mamba-2, Gated DeltaNet.
- En modélisation de langage (C4, WikiText) et en raisonnement zero-shot (HellaSwag, PIQA), ils obtiennent une précision plus élevée et une perplexité plus faible.
- Des performances de généralisation sont également démontrées en modélisation d’ADN et en prévision de séries temporelles.
- La profondeur de mémoire (Depth) a un impact déterminant sur la performance.
- À capacité mémoire égale, une architecture plus profonde offre une perplexité plus faible et une meilleure évolutivité.
- Sur le plan de l’efficacité, Titans maintient un entraînement parallèle et une vitesse d’inférence linéaire, avec un traitement plus rapide que les modèles précédents.
- Sur le benchmark BABILong, il obtient d’excellentes performances en inférence de contexte long avec moins de paramètres que GPT-4.
- Il traite efficacement des fenêtres contextuelles de plus de 2 millions de tokens.
Conclusion
- Titans et MIRAS proposent une nouvelle structure mémoire qui dépasse la limite des états récurrents à taille fixe, en apprenant en temps réel durant l’entrée des données.
- MIRAS fournit un cadre théorique solide intégrant optimisation en ligne, mémoire associative et conception d’architecture.
- En explorant un espace de conception non euclidien, il pose les bases d’une ère de modèles d’IA à long contexte combinant l’efficacité des RNN et la capacité expressive des Transformers
Aucun commentaire pour le moment.