9 points par GN⁺ 2025-12-08 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • L’architecture Titans et le cadre MIRAS sont conçus pour que les modèles d’IA mettent à jour leur mémoire critique en temps réel, tout en traitant rapidement des contextes massifs.
  • Titans combine la vitesse des RNN et la précision des Transformers, en stockant de manière sélective dans la mémoire à long terme les informations ayant un fort niveau de surprise (surprise).
  • MIRAS sert de schéma théorique qui interprète de manière unifiée les différents modèles de séquences, en systématisant la structure de mémoire, les biais, l’oubli et l’optimisation.
  • Les résultats expérimentaux montrent que Titans et les variantes de MIRAS (YAAD, MONETA, MEMORA) surpassent des modèles récents tels que Transformer++ et Mamba-2 en gestion de longs contextes et en efficacité.
  • Cette recherche montre une transition vers une nouvelle génération de modèles d’IA à long contexte, combinant l’efficacité des RNN et la capacité expressive des Transformers.

Aperçu de Titans et MIRAS

  • L’architecture Titans et le cadre MIRAS sont conçus pour que l’IA mette à jour sa mémoire en temps réel pendant l’exécution et traite de grands contextes.
    • Le mécanisme d’attention des Transformers existants voit son coût de calcul croître fortement avec la longueur des séquences.
    • Titans et MIRAS permettent de surmonter ces limites et d’autoriser la compréhension de contexte long et l’adaptation en temps réel.
  • Titans fournit une structure de modèle concrète, tandis que MIRAS joue le rôle d’un plan théorique généralisé.
    • Les deux systèmes développent le concept de mémorisation au moment du test (test-time memorization) pour intégrer de nouvelles informations pendant l’exécution, sans réentraîner.

Titans : apprentissage contextuel en temps réel

  • Titans distingue la mémoire à court terme (mécanisme d’attention) de la mémoire à long terme (module basé sur un réseau neuronal) pour imiter la structure de la mémoire humaine.
    • Le module de mémoire à long terme a une forme de perceptron multi-couches (MLP) et utilise un réseau neuronal profond au lieu de vecteurs fixes, ce qui permet un résumé d’information plus riche.
  • Le concept central est la métrique de surprise (surprise metric).
    • Plus une entrée diffère de la mémoire existante, plus elle est considérée comme surprenante et elle est stockée dans la mémoire à long terme.
    • Exemple : le mot attendu (‘cat’) a une faible surprise, tandis qu’une entrée inattendue (‘banana peel’) est traitée avec une surprise élevée.
  • Titans combine momentum et oublier (weight decay).
    • Le momentum reflète la continuité du contexte récent et enregistre également les informations associées.
    • L’oubli supprime les informations inutiles pour maintenir efficacement la capacité mémoire.

MIRAS : une perspective intégrée des modèles de séquence

  • MIRAS interprète tous les modèles de séquence comme des systèmes de mémoire associative.
    • Il définit que différents modèles résolvent fondamentalement le même problème : combiner efficacement les nouvelles informations avec la mémoire existante.
  • MIRAS définit les modèles via quatre éléments de conception.
    • Structure de mémoire : forme de stockage de l’information (vecteur, matrice, MLP, etc.)
    • Biais d’attention : détermine quelles informations le modèle privilégie
    • Porte de rétention (retention gate) : mécanisme de régularisation qui ajuste l’oubli
    • Algorithme de mémoire : méthode d’optimisation pour la mise à jour de la mémoire
  • Il explore des fonctions objectif et des régularisations non euclidiennes (non-Euclidean) pour dépasser la limitation des modèles dépendant de la MSE ou de la similarité au produit scalaire.

Modèles basés sur MIRAS

  • YAAD : une architecture utilisant la Huber loss, moins sensible aux erreurs d’entrée ou aux valeurs aberrantes.
  • MONETA : applique des normes généralisées (generalized norms) pour garantir une mémoire à long terme stable.
  • MEMORA : contraint la mémoire comme une carte probabiliste afin d’assurer une intégration équilibrée de l’information.
  • Les trois modèles atteignent une performance de mémoire à long terme robuste même sans attention.

Résultats expérimentaux et performances

  • Les modèles Titans et les variantes de MIRAS ont été évalués par rapport à des architectures récentes comme Transformer++, Mamba-2, Gated DeltaNet.
    • En modélisation de langage (C4, WikiText) et en raisonnement zero-shot (HellaSwag, PIQA), ils obtiennent une précision plus élevée et une perplexité plus faible.
    • Des performances de généralisation sont également démontrées en modélisation d’ADN et en prévision de séries temporelles.
  • La profondeur de mémoire (Depth) a un impact déterminant sur la performance.
    • À capacité mémoire égale, une architecture plus profonde offre une perplexité plus faible et une meilleure évolutivité.
  • Sur le plan de l’efficacité, Titans maintient un entraînement parallèle et une vitesse d’inférence linéaire, avec un traitement plus rapide que les modèles précédents.
  • Sur le benchmark BABILong, il obtient d’excellentes performances en inférence de contexte long avec moins de paramètres que GPT-4.
    • Il traite efficacement des fenêtres contextuelles de plus de 2 millions de tokens.

Conclusion

  • Titans et MIRAS proposent une nouvelle structure mémoire qui dépasse la limite des états récurrents à taille fixe, en apprenant en temps réel durant l’entrée des données.
  • MIRAS fournit un cadre théorique solide intégrant optimisation en ligne, mémoire associative et conception d’architecture.
  • En explorant un espace de conception non euclidien, il pose les bases d’une ère de modèles d’IA à long contexte combinant l’efficacité des RNN et la capacité expressive des Transformers

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.