Mamba est un modèle d’espace d’état (State Space Model) qui défie les Transformers
- L’IA domine aujourd’hui le monde, et les Transformers en sont au centre
- Mamba appartient à une classe de modèles alternative appelée modèles d’espace d’état (SSM)
- Mamba offre des performances et une scalabilité comparables à celles des Transformers, tout en restant exploitable sur de longues longueurs de séquence
- Le point notable est que Mamba supprime le « goulot d’étranglement quadratique » du « mécanisme d’attention », ce qui permet de gérer de longs contextes
- Mamba s’exécute jusqu’à 5 fois plus vite que les Transformers
Les problèmes des Transformers - l’attention seule pourrait ne pas suffire
- Dans les Transformers, chaque token peut référencer tous les tokens précédents, ce qui ralentit le modèle à mesure que le contexte grandit
- Le stockage de ce cache KV exige aussi une complexité spatiale en O(n)
- Il existe des techniques pour atténuer les goulots d’étranglement des Transformers actuels, mais une approche différente est nécessaire pour résoudre le problème à la racine
Backbone des modèles fondamentaux
- Deux composants essentiels d’un bon backbone d’architecture ML
- la communication (Communication) entre les tokens
- le calcul (Computation) à l’intérieur des tokens
- Les blocs Transformer sont composés d’attention et de MLPs
- Mamba utilise des SSM inspirés de la théorie du contrôle pour la communication, tout en conservant des projections de style MLP pour le calcul
Motivation de Mamba - retour à Temple Run
- L’état (state) désigne les variables nécessaires pour déterminer le comportement futur d’un système
- L’état est une compression de tout ce qu’il faut savoir du passé, ce qui le ramène à un processus de décision de Markov
Discrétisation - vivre dans un monde quantifié
- Le processus qui consiste à convertir des équations différentielles en temps continu en équations aux différences en temps discret s’appelle la discrétisation (discretisation)
- Mamba utilise une discrétisation en maintien d’ordre zéro (ZOH)
Comprendre les matrices SSM
- Les matrices A, B, C et D servent respectivement à la transition d’état, au mapping des nouvelles entrées vers l’état, au mapping de l’état vers la sortie du SSM, et au passage des nouvelles entrées vers la sortie
Efficacité contre efficacité pratique : Attention is Focus, Selectivity is Prioritisation (l’attention est une focalisation, la sélectivité est une hiérarchisation des priorités)
- Les Transformers sont très efficaces sur le plan des résultats, mais pas forcément efficients
- L’architecture Mamba propose une solution qui repousse la frontière de Pareto entre efficience et performance
Mécanisme de sélection
- La sélectivité (Selectivity) permet de transformer chaque token en état selon ses besoins propres
- Mamba rend les matrices A, B et C dépendantes de x, donc dépendantes du contexte plutôt que statiques
Les problèmes de la sélectivité
- L’application du mécanisme de sélection peut rendre les calculs plus lents qu’avec des SSM non sélectifs
- Grâce à l’optimisation matérielle, Mamba peut néanmoins s’exécuter plus vite que des Transformers de taille comparable
Machine learning et économie politique - quelle taille doit avoir l’état ?
- Le compromis entre efficience et performance dans les modèles de séquence se caractérise par la qualité de la compression de l’état
- La représentation de l’état est essentielle, et la clé réside dans une compression sélective et dynamique de cet état
Flux d’information : Transformer contre Mamba
- Les Transformers apprennent à partir des données d’entraînement et des données de contexte
- Dans Mamba, les données d’entraînement et de contexte sont compressées/filtrées avant d’être accessibles
Le remplacement d’état comme nouveau paradigme de prompting
- Avec des modèles comme Mamba, il devient possible de partager des bibliothèques d’états générés à partir de données spécialisées
- Les états peuvent appliquer, au moment de l’inférence et sans backprop, un apprentissage à contexte infini
Mamba et l’interprétabilité mécanistique
- L’interprétabilité de Mamba se concentre sur la compréhension des transferts d’information entre les tokens
Ce que Mamba et les SSM pourraient faire ensuite
- Des modèles comme Mamba pourraient exceller dans des scénarios nécessitant de très longs contextes et une mémoire à long terme
Agents et sécurité de l’IA
- Les modèles de langage sont intrinsèquement sûrs, mais la possibilité d’un raisonnement séquentiel à long terme remet en lumière l’importance de la sécurité de l’IA fondée sur les agents
La meilleure collaboration entre Transformers et Mamba
- Il est pertinent de combiner le long contexte de Mamba avec la haute résolution des Transformers sur les séquences courtes
L’avis de GN⁺
- Mamba résout les goulots d’étranglement des Transformers et propose une alternative efficace pour le traitement de longues séquences
- Cette technologie pourrait être particulièrement utile dans des domaines où les longues séquences de données sont cruciales, comme la médecine, la génétique ou le traitement du langage naturel
- Des recherches supplémentaires sont nécessaires pour vérifier si le mécanisme de sélection de Mamba est réellement efficace
- La sélectivité de Mamba pourrait aider à trouver un équilibre entre la haute précision offerte par les Transformers et l’efficience
Aucun commentaire pour le moment.