Mamba : le modèle d’espace d’état qui défie les Transformers

(kolaayonrinde.com)

11 points par GN⁺ 2024-02-27 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Mamba est un modèle d’espace d’état (State Space Model) qui défie les Transformers

L’IA domine aujourd’hui le monde, et les Transformers en sont au centre
Mamba appartient à une classe de modèles alternative appelée modèles d’espace d’état (SSM)
Mamba offre des performances et une scalabilité comparables à celles des Transformers, tout en restant exploitable sur de longues longueurs de séquence
Le point notable est que Mamba supprime le « goulot d’étranglement quadratique » du « mécanisme d’attention », ce qui permet de gérer de longs contextes
Mamba s’exécute jusqu’à 5 fois plus vite que les Transformers

Les problèmes des Transformers - l’attention seule pourrait ne pas suffire

Dans les Transformers, chaque token peut référencer tous les tokens précédents, ce qui ralentit le modèle à mesure que le contexte grandit
Le stockage de ce cache KV exige aussi une complexité spatiale en O(n)
Il existe des techniques pour atténuer les goulots d’étranglement des Transformers actuels, mais une approche différente est nécessaire pour résoudre le problème à la racine

Backbone des modèles fondamentaux

Deux composants essentiels d’un bon backbone d’architecture ML
- la communication (Communication) entre les tokens
- le calcul (Computation) à l’intérieur des tokens
Les blocs Transformer sont composés d’attention et de MLPs
Mamba utilise des SSM inspirés de la théorie du contrôle pour la communication, tout en conservant des projections de style MLP pour le calcul

Motivation de Mamba - retour à Temple Run

L’état (state) désigne les variables nécessaires pour déterminer le comportement futur d’un système
L’état est une compression de tout ce qu’il faut savoir du passé, ce qui le ramène à un processus de décision de Markov

Discrétisation - vivre dans un monde quantifié

Le processus qui consiste à convertir des équations différentielles en temps continu en équations aux différences en temps discret s’appelle la discrétisation (discretisation)
Mamba utilise une discrétisation en maintien d’ordre zéro (ZOH)

Comprendre les matrices SSM

Les matrices A, B, C et D servent respectivement à la transition d’état, au mapping des nouvelles entrées vers l’état, au mapping de l’état vers la sortie du SSM, et au passage des nouvelles entrées vers la sortie

Efficacité contre efficacité pratique : Attention is Focus, Selectivity is Prioritisation (l’attention est une focalisation, la sélectivité est une hiérarchisation des priorités)

Les Transformers sont très efficaces sur le plan des résultats, mais pas forcément efficients
L’architecture Mamba propose une solution qui repousse la frontière de Pareto entre efficience et performance

Mécanisme de sélection

La sélectivité (Selectivity) permet de transformer chaque token en état selon ses besoins propres
Mamba rend les matrices A, B et C dépendantes de x, donc dépendantes du contexte plutôt que statiques

Les problèmes de la sélectivité

L’application du mécanisme de sélection peut rendre les calculs plus lents qu’avec des SSM non sélectifs
Grâce à l’optimisation matérielle, Mamba peut néanmoins s’exécuter plus vite que des Transformers de taille comparable

Machine learning et économie politique - quelle taille doit avoir l’état ?

Le compromis entre efficience et performance dans les modèles de séquence se caractérise par la qualité de la compression de l’état
La représentation de l’état est essentielle, et la clé réside dans une compression sélective et dynamique de cet état

Flux d’information : Transformer contre Mamba

Les Transformers apprennent à partir des données d’entraînement et des données de contexte
Dans Mamba, les données d’entraînement et de contexte sont compressées/filtrées avant d’être accessibles

Le remplacement d’état comme nouveau paradigme de prompting

Avec des modèles comme Mamba, il devient possible de partager des bibliothèques d’états générés à partir de données spécialisées
Les états peuvent appliquer, au moment de l’inférence et sans backprop, un apprentissage à contexte infini

Mamba et l’interprétabilité mécanistique

L’interprétabilité de Mamba se concentre sur la compréhension des transferts d’information entre les tokens

Ce que Mamba et les SSM pourraient faire ensuite

Des modèles comme Mamba pourraient exceller dans des scénarios nécessitant de très longs contextes et une mémoire à long terme

Agents et sécurité de l’IA

Les modèles de langage sont intrinsèquement sûrs, mais la possibilité d’un raisonnement séquentiel à long terme remet en lumière l’importance de la sécurité de l’IA fondée sur les agents

La meilleure collaboration entre Transformers et Mamba

Il est pertinent de combiner le long contexte de Mamba avec la haute résolution des Transformers sur les séquences courtes

L’avis de GN⁺

Mamba résout les goulots d’étranglement des Transformers et propose une alternative efficace pour le traitement de longues séquences
Cette technologie pourrait être particulièrement utile dans des domaines où les longues séquences de données sont cruciales, comme la médecine, la génétique ou le traitement du langage naturel
Des recherches supplémentaires sont nécessaires pour vérifier si le mécanisme de sélection de Mamba est réellement efficace
La sélectivité de Mamba pourrait aider à trouver un équilibre entre la haute précision offerte par les Transformers et l’efficience

Mamba : le modèle d’espace d’état qui défie les Transformers

Mamba est un modèle d’espace d’état (State Space Model) qui défie les Transformers

Les problèmes des Transformers - l’attention seule pourrait ne pas suffire

Backbone des modèles fondamentaux

Motivation de Mamba - retour à Temple Run

Discrétisation - vivre dans un monde quantifié

Comprendre les matrices SSM

Efficacité contre efficacité pratique : Attention is Focus, Selectivity is Prioritisation (l’attention est une focalisation, la sélectivité est une hiérarchisation des priorités)

Mécanisme de sélection

Les problèmes de la sélectivité

Machine learning et économie politique - quelle taille doit avoir l’état ?

Flux d’information : Transformer contre Mamba

Le remplacement d’état comme nouveau paradigme de prompting

Mamba et l’interprétabilité mécanistique

Ce que Mamba et les SSM pourraient faire ensuite

Agents et sécurité de l’IA

La meilleure collaboration entre Transformers et Mamba

L’avis de GN⁺

À lire aussi

Aucun commentaire pour le moment.