L’architecture Titans de Google soutient la mémoire à long terme de l’IA
(research.google)- L’architecture Titans et le cadre MIRAS sont conçus pour que les modèles d’IA mettent à jour leur mémoire critique en temps réel, tout en traitant rapidement des contextes massifs.
- Titans combine la vitesse des RNN et la précision des Transformers, en stockant de manière sélective dans la mémoire à long terme les informations ayant un fort niveau de surprise (surprise).
- MIRAS sert de schéma théorique qui interprète de manière unifiée les différents modèles de séquences, en systématisant la structure de mémoire, les biais, l’oubli et l’optimisation.
- Les résultats expérimentaux montrent que Titans et les variantes de MIRAS (YAAD, MONETA, MEMORA) surpassent des modèles récents tels que Transformer++ et Mamba-2 en gestion de longs contextes et en efficacité.
- Cette recherche montre une transition vers une nouvelle génération de modèles d’IA à long contexte, combinant l’efficacité des RNN et la capacité expressive des Transformers.
Aperçu de Titans et MIRAS
- L’architecture Titans et le cadre MIRAS sont conçus pour que l’IA mette à jour sa mémoire en temps réel pendant l’exécution et traite de grands contextes.
- Le mécanisme d’attention des Transformers existants voit son coût de calcul croître fortement avec la longueur des séquences.
- Titans et MIRAS permettent de surmonter ces limites et d’autoriser la compréhension de contexte long et l’adaptation en temps réel.
- Titans fournit une structure de modèle concrète, tandis que MIRAS joue le rôle d’un plan théorique généralisé.
- Les deux systèmes développent le concept de mémorisation au moment du test (test-time memorization) pour intégrer de nouvelles informations pendant l’exécution, sans réentraîner.
Titans : apprentissage contextuel en temps réel
- Titans distingue la mémoire à court terme (mécanisme d’attention) de la mémoire à long terme (module basé sur un réseau neuronal) pour imiter la structure de la mémoire humaine.
- Le module de mémoire à long terme a une forme de perceptron multi-couches (MLP) et utilise un réseau neuronal profond au lieu de vecteurs fixes, ce qui permet un résumé d’information plus riche.
- Le concept central est la métrique de surprise (surprise metric).
- Plus une entrée diffère de la mémoire existante, plus elle est considérée comme surprenante et elle est stockée dans la mémoire à long terme.
- Exemple : le mot attendu (‘cat’) a une faible surprise, tandis qu’une entrée inattendue (‘banana peel’) est traitée avec une surprise élevée.
- Titans combine momentum et oublier (weight decay).
- Le momentum reflète la continuité du contexte récent et enregistre également les informations associées.
- L’oubli supprime les informations inutiles pour maintenir efficacement la capacité mémoire.
MIRAS : une perspective intégrée des modèles de séquence
- MIRAS interprète tous les modèles de séquence comme des systèmes de mémoire associative.
- Il définit que différents modèles résolvent fondamentalement le même problème : combiner efficacement les nouvelles informations avec la mémoire existante.
- MIRAS définit les modèles via quatre éléments de conception.
- Structure de mémoire : forme de stockage de l’information (vecteur, matrice, MLP, etc.)
- Biais d’attention : détermine quelles informations le modèle privilégie
- Porte de rétention (retention gate) : mécanisme de régularisation qui ajuste l’oubli
- Algorithme de mémoire : méthode d’optimisation pour la mise à jour de la mémoire
- Il explore des fonctions objectif et des régularisations non euclidiennes (non-Euclidean) pour dépasser la limitation des modèles dépendant de la MSE ou de la similarité au produit scalaire.
Modèles basés sur MIRAS
- YAAD : une architecture utilisant la Huber loss, moins sensible aux erreurs d’entrée ou aux valeurs aberrantes.
- MONETA : applique des normes généralisées (generalized norms) pour garantir une mémoire à long terme stable.
- MEMORA : contraint la mémoire comme une carte probabiliste afin d’assurer une intégration équilibrée de l’information.
- Les trois modèles atteignent une performance de mémoire à long terme robuste même sans attention.
Résultats expérimentaux et performances
- Les modèles Titans et les variantes de MIRAS ont été évalués par rapport à des architectures récentes comme Transformer++, Mamba-2, Gated DeltaNet.
- En modélisation de langage (C4, WikiText) et en raisonnement zero-shot (HellaSwag, PIQA), ils obtiennent une précision plus élevée et une perplexité plus faible.
- Des performances de généralisation sont également démontrées en modélisation d’ADN et en prévision de séries temporelles.
- La profondeur de mémoire (Depth) a un impact déterminant sur la performance.
- À capacité mémoire égale, une architecture plus profonde offre une perplexité plus faible et une meilleure évolutivité.
- Sur le plan de l’efficacité, Titans maintient un entraînement parallèle et une vitesse d’inférence linéaire, avec un traitement plus rapide que les modèles précédents.
- Sur le benchmark BABILong, il obtient d’excellentes performances en inférence de contexte long avec moins de paramètres que GPT-4.
- Il traite efficacement des fenêtres contextuelles de plus de 2 millions de tokens.
Conclusion
- Titans et MIRAS proposent une nouvelle structure mémoire qui dépasse la limite des états récurrents à taille fixe, en apprenant en temps réel durant l’entrée des données.
- MIRAS fournit un cadre théorique solide intégrant optimisation en ligne, mémoire associative et conception d’architecture.
- En explorant un espace de conception non euclidien, il pose les bases d’une ère de modèles d’IA à long contexte combinant l’efficacité des RNN et la capacité expressive des Transformers
1 commentaires
Avis Hacker News
Présentation de l’article Titans: Learning to Memorize at Test Time
L’original se trouve sur arXiv
Les articles liés sont consultables via ce premier lien et ce deuxième. Google mériterait, selon ce point de vue, une grande confiance pour ce niveau de transparence
Les articles des grands laboratoires américains sont souvent déconnectés des performances réelles. En exemple pour DeepSeek, sont cités cet article et celui-ci
Meta avec Llama, Qwen et DeepSeek sont très largement devant. À l’heure actuelle, il n’existe qu’une implémentation non officielle
Le projet lumine a récemment marqué les esprits, avec partage du lien vers l’article et de la page de recherche officielle
Il n’y aurait donc pas de raison particulière d’accorder davantage de mérite à Google qu’aux autres
Une blague est lancée : « Enfin, nous avons créé le “Torment Nexus” »
Référence au fait que, dans l’univers d’Eclipse Phase, TITAN était un réseau d’IA ayant détruit l’humanité
Le cœur de l’architecture Titans consiste à évaluer la surprise et l’importance via des signaux d’erreur internes (gradient), puis à mettre à jour la mémoire à long terme en conséquence
La question est posée de savoir si une telle structure pourrait être perturbée par des entrées de bruit aléatoire
Le modèle apprend même pendant l’inférence, et durant l’entraînement il apprend aussi « quoi apprendre »
Les entrées dénuées de sens reçoivent des embeddings de faible surprise et influencent donc très peu l’apprentissage
L’humain mémorise davantage selon l’intensité émotionnelle que selon la nouveauté. Une IA devrait elle aussi avoir un état interne exprimant « ce qu’elle veut »
En revanche, dans un environnement où le contexte est maintenu, comme le développement d’une base de code, elle pourrait se souvenir des décisions d’architecture passées et du contenu des discussions pour porter de meilleurs jugements
À la première lecture de l’article sur Titans, le sentiment a été : « voilà une avancée majeure »
Sans travailler dans l’industrie de l’IA, l’auteur dit réfléchir depuis longtemps à une IA à pensée humanoïde
Les LLM en étaient encore très loin, mais Titans semble faire un pas dans cette direction
L’idée serait d’en faire un billet de blog, sans certitude d’attirer l’attention faute d’être une personnalité connue
Malgré cela, si une implémentation réelle de Titans sort, cela pourrait surprendre tout le monde
Un article qui remet en avant la vision d’ensemble peut au contraire apporter des analyses utiles
Un billet de blog a déjà été écrit sur Titans
En dehors des affirmations de Google, il n’y a pas d’implémentation validée, et presque aucune recherche de suivi
Question sur le fait de savoir si la structure Titans serait plus ou moins vulnérable aux prompt injections
L’apprentissage en temps réel pourrait renforcer la défense, mais à l’inverse des entrées malveillantes pourraient aussi s’ancrer plus profondément
En lisant une explication du mécanisme d’attention des Transformers, quelqu’un s’est demandé comment des IDE comme Cursor gèrent la mémoire
Ils semblent comprendre de mieux en mieux la base de code et le contexte
Il explique simplement le fonctionnement de la fenêtre de contexte des Transformers
Question sur la possibilité d’imaginer Titans comme une structure qui continue de s’adapter un peu à la manière de LoRA
Si c’est le cas, y aurait-il ensuite une étape de fusion de LoRA dans le modèle principal ? Cela est comparé à une sorte de processus de sommeil
Titans ne comporte pas ce type de structure basse dimension
À la place, il s’agit d’un apprentissage de l’ensemble du MLP pendant le traitement des chunks d’entrée
Question sur le fait de savoir si un apprentissage fondé sur la surprise pourrait aligner plus finement le modèle avec les prompts utilisateur en matière d’alignment