L’architecture Titans de Google soutient la mémoire à long terme de l’IA

(research.google)

9 points par GN⁺ 2025-12-08 | Aucun commentaire pour le moment. | Partager sur WhatsApp

L’architecture Titans et le cadre MIRAS sont conçus pour que les modèles d’IA mettent à jour leur mémoire critique en temps réel, tout en traitant rapidement des contextes massifs.
Titans combine la vitesse des RNN et la précision des Transformers, en stockant de manière sélective dans la mémoire à long terme les informations ayant un fort niveau de surprise (surprise).
MIRAS sert de schéma théorique qui interprète de manière unifiée les différents modèles de séquences, en systématisant la structure de mémoire, les biais, l’oubli et l’optimisation.
Les résultats expérimentaux montrent que Titans et les variantes de MIRAS (YAAD, MONETA, MEMORA) surpassent des modèles récents tels que Transformer++ et Mamba-2 en gestion de longs contextes et en efficacité.
Cette recherche montre une transition vers une nouvelle génération de modèles d’IA à long contexte, combinant l’efficacité des RNN et la capacité expressive des Transformers.

Aperçu de Titans et MIRAS

L’architecture Titans et le cadre MIRAS sont conçus pour que l’IA mette à jour sa mémoire en temps réel pendant l’exécution et traite de grands contextes.
- Le mécanisme d’attention des Transformers existants voit son coût de calcul croître fortement avec la longueur des séquences.
- Titans et MIRAS permettent de surmonter ces limites et d’autoriser la compréhension de contexte long et l’adaptation en temps réel.
Titans fournit une structure de modèle concrète, tandis que MIRAS joue le rôle d’un plan théorique généralisé.
- Les deux systèmes développent le concept de mémorisation au moment du test (test-time memorization) pour intégrer de nouvelles informations pendant l’exécution, sans réentraîner.

Titans distingue la mémoire à court terme (mécanisme d’attention) de la mémoire à long terme (module basé sur un réseau neuronal) pour imiter la structure de la mémoire humaine.
- Le module de mémoire à long terme a une forme de perceptron multi-couches (MLP) et utilise un réseau neuronal profond au lieu de vecteurs fixes, ce qui permet un résumé d’information plus riche.
Le concept central est la métrique de surprise (surprise metric).
- Plus une entrée diffère de la mémoire existante, plus elle est considérée comme surprenante et elle est stockée dans la mémoire à long terme.
- Exemple : le mot attendu (‘cat’) a une faible surprise, tandis qu’une entrée inattendue (‘banana peel’) est traitée avec une surprise élevée.
Titans combine momentum et oublier (weight decay).
- Le momentum reflète la continuité du contexte récent et enregistre également les informations associées.
- L’oubli supprime les informations inutiles pour maintenir efficacement la capacité mémoire.

MIRAS interprète tous les modèles de séquence comme des systèmes de mémoire associative.
- Il définit que différents modèles résolvent fondamentalement le même problème : combiner efficacement les nouvelles informations avec la mémoire existante.
MIRAS définit les modèles via quatre éléments de conception.
- Structure de mémoire : forme de stockage de l’information (vecteur, matrice, MLP, etc.)
- Biais d’attention : détermine quelles informations le modèle privilégie
- Porte de rétention (retention gate) : mécanisme de régularisation qui ajuste l’oubli
- Algorithme de mémoire : méthode d’optimisation pour la mise à jour de la mémoire
Il explore des fonctions objectif et des régularisations non euclidiennes (non-Euclidean) pour dépasser la limitation des modèles dépendant de la MSE ou de la similarité au produit scalaire.

YAAD : une architecture utilisant la Huber loss, moins sensible aux erreurs d’entrée ou aux valeurs aberrantes.
MONETA : applique des normes généralisées (generalized norms) pour garantir une mémoire à long terme stable.
MEMORA : contraint la mémoire comme une carte probabiliste afin d’assurer une intégration équilibrée de l’information.
Les trois modèles atteignent une performance de mémoire à long terme robuste même sans attention.

Les modèles Titans et les variantes de MIRAS ont été évalués par rapport à des architectures récentes comme Transformer++, Mamba-2, Gated DeltaNet.
- En modélisation de langage (C4, WikiText) et en raisonnement zero-shot (HellaSwag, PIQA), ils obtiennent une précision plus élevée et une perplexité plus faible.
- Des performances de généralisation sont également démontrées en modélisation d’ADN et en prévision de séries temporelles.
La profondeur de mémoire (Depth) a un impact déterminant sur la performance.
- À capacité mémoire égale, une architecture plus profonde offre une perplexité plus faible et une meilleure évolutivité.
Sur le plan de l’efficacité, Titans maintient un entraînement parallèle et une vitesse d’inférence linéaire, avec un traitement plus rapide que les modèles précédents.
Sur le benchmark BABILong, il obtient d’excellentes performances en inférence de contexte long avec moins de paramètres que GPT-4.
- Il traite efficacement des fenêtres contextuelles de plus de 2 millions de tokens.

Titans et MIRAS proposent une nouvelle structure mémoire qui dépasse la limite des états récurrents à taille fixe, en apprenant en temps réel durant l’entrée des données.
MIRAS fournit un cadre théorique solide intégrant optimisation en ligne, mémoire associative et conception d’architecture.
En explorant un espace de conception non euclidien, il pose les bases d’une ère de modèles d’IA à long contexte combinant l’efficacité des RNN et la capacité expressive des Transformers