9 points par GN⁺ 2025-12-08 | 1 commentaires | Partager sur WhatsApp
  • L’architecture Titans et le cadre MIRAS sont conçus pour que les modèles d’IA mettent à jour leur mémoire critique en temps réel, tout en traitant rapidement des contextes massifs.
  • Titans combine la vitesse des RNN et la précision des Transformers, en stockant de manière sélective dans la mémoire à long terme les informations ayant un fort niveau de surprise (surprise).
  • MIRAS sert de schéma théorique qui interprète de manière unifiée les différents modèles de séquences, en systématisant la structure de mémoire, les biais, l’oubli et l’optimisation.
  • Les résultats expérimentaux montrent que Titans et les variantes de MIRAS (YAAD, MONETA, MEMORA) surpassent des modèles récents tels que Transformer++ et Mamba-2 en gestion de longs contextes et en efficacité.
  • Cette recherche montre une transition vers une nouvelle génération de modèles d’IA à long contexte, combinant l’efficacité des RNN et la capacité expressive des Transformers.

Aperçu de Titans et MIRAS

  • L’architecture Titans et le cadre MIRAS sont conçus pour que l’IA mette à jour sa mémoire en temps réel pendant l’exécution et traite de grands contextes.
    • Le mécanisme d’attention des Transformers existants voit son coût de calcul croître fortement avec la longueur des séquences.
    • Titans et MIRAS permettent de surmonter ces limites et d’autoriser la compréhension de contexte long et l’adaptation en temps réel.
  • Titans fournit une structure de modèle concrète, tandis que MIRAS joue le rôle d’un plan théorique généralisé.
    • Les deux systèmes développent le concept de mémorisation au moment du test (test-time memorization) pour intégrer de nouvelles informations pendant l’exécution, sans réentraîner.

Titans : apprentissage contextuel en temps réel

  • Titans distingue la mémoire à court terme (mécanisme d’attention) de la mémoire à long terme (module basé sur un réseau neuronal) pour imiter la structure de la mémoire humaine.
    • Le module de mémoire à long terme a une forme de perceptron multi-couches (MLP) et utilise un réseau neuronal profond au lieu de vecteurs fixes, ce qui permet un résumé d’information plus riche.
  • Le concept central est la métrique de surprise (surprise metric).
    • Plus une entrée diffère de la mémoire existante, plus elle est considérée comme surprenante et elle est stockée dans la mémoire à long terme.
    • Exemple : le mot attendu (‘cat’) a une faible surprise, tandis qu’une entrée inattendue (‘banana peel’) est traitée avec une surprise élevée.
  • Titans combine momentum et oublier (weight decay).
    • Le momentum reflète la continuité du contexte récent et enregistre également les informations associées.
    • L’oubli supprime les informations inutiles pour maintenir efficacement la capacité mémoire.

MIRAS : une perspective intégrée des modèles de séquence

  • MIRAS interprète tous les modèles de séquence comme des systèmes de mémoire associative.
    • Il définit que différents modèles résolvent fondamentalement le même problème : combiner efficacement les nouvelles informations avec la mémoire existante.
  • MIRAS définit les modèles via quatre éléments de conception.
    • Structure de mémoire : forme de stockage de l’information (vecteur, matrice, MLP, etc.)
    • Biais d’attention : détermine quelles informations le modèle privilégie
    • Porte de rétention (retention gate) : mécanisme de régularisation qui ajuste l’oubli
    • Algorithme de mémoire : méthode d’optimisation pour la mise à jour de la mémoire
  • Il explore des fonctions objectif et des régularisations non euclidiennes (non-Euclidean) pour dépasser la limitation des modèles dépendant de la MSE ou de la similarité au produit scalaire.

Modèles basés sur MIRAS

  • YAAD : une architecture utilisant la Huber loss, moins sensible aux erreurs d’entrée ou aux valeurs aberrantes.
  • MONETA : applique des normes généralisées (generalized norms) pour garantir une mémoire à long terme stable.
  • MEMORA : contraint la mémoire comme une carte probabiliste afin d’assurer une intégration équilibrée de l’information.
  • Les trois modèles atteignent une performance de mémoire à long terme robuste même sans attention.

Résultats expérimentaux et performances

  • Les modèles Titans et les variantes de MIRAS ont été évalués par rapport à des architectures récentes comme Transformer++, Mamba-2, Gated DeltaNet.
    • En modélisation de langage (C4, WikiText) et en raisonnement zero-shot (HellaSwag, PIQA), ils obtiennent une précision plus élevée et une perplexité plus faible.
    • Des performances de généralisation sont également démontrées en modélisation d’ADN et en prévision de séries temporelles.
  • La profondeur de mémoire (Depth) a un impact déterminant sur la performance.
    • À capacité mémoire égale, une architecture plus profonde offre une perplexité plus faible et une meilleure évolutivité.
  • Sur le plan de l’efficacité, Titans maintient un entraînement parallèle et une vitesse d’inférence linéaire, avec un traitement plus rapide que les modèles précédents.
  • Sur le benchmark BABILong, il obtient d’excellentes performances en inférence de contexte long avec moins de paramètres que GPT-4.
    • Il traite efficacement des fenêtres contextuelles de plus de 2 millions de tokens.

Conclusion

  • Titans et MIRAS proposent une nouvelle structure mémoire qui dépasse la limite des états récurrents à taille fixe, en apprenant en temps réel durant l’entrée des données.
  • MIRAS fournit un cadre théorique solide intégrant optimisation en ligne, mémoire associative et conception d’architecture.
  • En explorant un espace de conception non euclidien, il pose les bases d’une ère de modèles d’IA à long contexte combinant l’efficacité des RNN et la capacité expressive des Transformers

1 commentaires

 
GN⁺ 2025-12-08
Avis Hacker News
  • Présentation de l’article Titans: Learning to Memorize at Test Time
    L’original se trouve sur arXiv

    • La question est posée de savoir s’il existe d’autres entreprises que Google qui publient leurs recherches en IA à ce niveau
      Les articles liés sont consultables via ce premier lien et ce deuxième. Google mériterait, selon ce point de vue, une grande confiance pour ce niveau de transparence
      • Des entreprises chinoises comme DeepSeek publient elles aussi activement leurs recherches et les valident concrètement via des modèles open
        Les articles des grands laboratoires américains sont souvent déconnectés des performances réelles. En exemple pour DeepSeek, sont cités cet article et celui-ci
      • Publier des articles, c’est bien, mais 11 mois plus tard, il est toujours impossible de télécharger le code du modèle ou ses poids pour l’architecture Titans
        Meta avec Llama, Qwen et DeepSeek sont très largement devant. À l’heure actuelle, il n’existe qu’une implémentation non officielle
      • Bytedance publie également des articles de manière très active
        Le projet lumine a récemment marqué les esprits, avec partage du lien vers l’article et de la page de recherche officielle
      • Meta partage elle aussi ses recherches publiquement, et récemment les entreprises chinoises semblent suivre une dynamique comparable
      • 80 % de l’écosystème repose déjà sur des recherches publiées par diverses entreprises et individus
        Il n’y aurait donc pas de raison particulière d’accorder davantage de mérite à Google qu’aux autres
  • Une blague est lancée : « Enfin, nous avons créé le “Torment Nexus” »
    Référence au fait que, dans l’univers d’Eclipse Phase, TITAN était un réseau d’IA ayant détruit l’humanité

  • Le cœur de l’architecture Titans consiste à évaluer la surprise et l’importance via des signaux d’erreur internes (gradient), puis à mettre à jour la mémoire à long terme en conséquence
    La question est posée de savoir si une telle structure pourrait être perturbée par des entrées de bruit aléatoire

    • Il s’agit d’une interprétation simplifiée du fonctionnement de Titans
      Le modèle apprend même pendant l’inférence, et durant l’entraînement il apprend aussi « quoi apprendre »
      Les entrées dénuées de sens reçoivent des embeddings de faible surprise et influencent donc très peu l’apprentissage
    • En réalité, n’importe quelle IA peut voir sa réaction perturbée par des entrées aléatoires
    • Les chercheurs ont probablement identifié ce problème dès le départ, et ce malentendu semble surtout venir d’une explication trop superficielle
    • À l’image du système émotionnel (système limbique) humain, une IA aurait elle aussi besoin d’un mécanisme de mémoire fondé sur l’émotion
      L’humain mémorise davantage selon l’intensité émotionnelle que selon la nouveauté. Une IA devrait elle aussi avoir un état interne exprimant « ce qu’elle veut »
    • De la même façon qu’un humain enfermé dans un environnement de lavage de cerveau peut se mettre à répéter des informations erronées, une IA pourrait présenter un phénomène similaire si son flux d’entrée est limité
      En revanche, dans un environnement où le contexte est maintenu, comme le développement d’une base de code, elle pourrait se souvenir des décisions d’architecture passées et du contenu des discussions pour porter de meilleurs jugements
  • À la première lecture de l’article sur Titans, le sentiment a été : « voilà une avancée majeure »
    Sans travailler dans l’industrie de l’IA, l’auteur dit réfléchir depuis longtemps à une IA à pensée humanoïde
    Les LLM en étaient encore très loin, mais Titans semble faire un pas dans cette direction
    L’idée serait d’en faire un billet de blog, sans certitude d’attirer l’attention faute d’être une personnalité connue
    Malgré cela, si une implémentation réelle de Titans sort, cela pourrait surprendre tout le monde

    • En publiant régulièrement sur un blog, on peut finir par devenir une personne reconnue
    • Les textes sur l’IA ont aujourd’hui tendance à s’enfermer dans les détails techniques
      Un article qui remet en avant la vision d’ensemble peut au contraire apporter des analyses utiles
    • Il est proposé de partager ce texte sur HN pour obtenir des retours
  • Un billet de blog a déjà été écrit sur Titans

    • Mais il n’existe toujours pas de modèle préentraîné
      En dehors des affirmations de Google, il n’y a pas d’implémentation validée, et presque aucune recherche de suivi
  • Question sur le fait de savoir si la structure Titans serait plus ou moins vulnérable aux prompt injections
    L’apprentissage en temps réel pourrait renforcer la défense, mais à l’inverse des entrées malveillantes pourraient aussi s’ancrer plus profondément

  • En lisant une explication du mécanisme d’attention des Transformers, quelqu’un s’est demandé comment des IDE comme Cursor gèrent la mémoire
    Ils semblent comprendre de mieux en mieux la base de code et le contexte

    • Mais cet article n’a rien à voir avec ce type de gestion mémoire dans les IDE
      Il explique simplement le fonctionnement de la fenêtre de contexte des Transformers
  • Question sur la possibilité d’imaginer Titans comme une structure qui continue de s’adapter un peu à la manière de LoRA
    Si c’est le cas, y aurait-il ensuite une étape de fusion de LoRA dans le modèle principal ? Cela est comparé à une sorte de processus de sommeil

    • LoRA est en général un adaptateur basse dimension ajouté de l’extérieur, ce qui le distingue de Titans
      Titans ne comporte pas ce type de structure basse dimension
    • En théorie, LoRA pourrait être utilisé, mais il serait difficile d’en faire un substitut complet à cause des limites de capacité
      À la place, il s’agit d’un apprentissage de l’ensemble du MLP pendant le traitement des chunks d’entrée
  • Question sur le fait de savoir si un apprentissage fondé sur la surprise pourrait aligner plus finement le modèle avec les prompts utilisateur en matière d’alignment