Jamba - un modèle d’IA de niveau production basé sur Mamba

xguru · 2024-03-30T09:46:02+09:00

AI21 Labs a lancé Jamba, le premier modèle d’IA au monde de niveau production basé sur l’architecture Mamba Jamba combine les points forts de Mamba SSM (modèle d’espace d’état structuré) et de l’architecture Transformer traditionnelle pour offrir des performances impressionnantes et des gains d’efficacité Une vaste fenêtre de contexte de 256K tokens. Jusqu’à 140K tokens traités sur un seul GPU de 80 Go L’architecture hybride et les performances de Jamba Jamba exploite une architecture hybride SSM-Transformer avec des couches Mixture of Experts (MoE), n’utilisant que 12B paramètres en inférence sur un total de 52B paramètres Il peut gérer un contexte bien plus long que des modèles concurrents comme Llama 2 de Meta, tout en conservant un débit élevé et une grande efficacité Il offre un débit 3 fois supérieur sur les longs contextes, avec une meilleure efficacité que des modèles basés sur Transformer de taille comparable Il se caractérise par une approche en blocs et en couches, chaque bloc Jamba contenant une couche d’attention ou une couche Mamba, suivie d’un perceptron multicouche (MLP) Dans cette structure, une couche Transformer est utilisée toutes les 8 couches Il affiche d’excellents résultats sur divers benchmarks, dépassant ou égalant les performances des modèles récents de même taille sur un large éventail de tâches Licence Jamba est publié en open weights sous licence Apache 2.0 et disponible sur Hugging Face À ce stade, Jamba est publié comme modèle de recherche sans les garde-fous nécessaires à un usage commercial, mais AI21 Labs prévoit de lancer une version plus sûre dans les prochaines semaines

(maginative.com)

11 points par xguru 2024-03-30 | 1 commentaires | Partager sur WhatsApp

AI21 Labs a lancé Jamba, le premier modèle d’IA au monde de niveau production basé sur l’architecture Mamba
Jamba combine les points forts de Mamba SSM (modèle d’espace d’état structuré) et de l’architecture Transformer traditionnelle pour offrir des performances impressionnantes et des gains d’efficacité
Une vaste fenêtre de contexte de 256K tokens. Jusqu’à 140K tokens traités sur un seul GPU de 80 Go

L’architecture hybride et les performances de Jamba

Jamba exploite une architecture hybride SSM-Transformer avec des couches Mixture of Experts (MoE), n’utilisant que 12B paramètres en inférence sur un total de 52B paramètres
Il peut gérer un contexte bien plus long que des modèles concurrents comme Llama 2 de Meta, tout en conservant un débit élevé et une grande efficacité
Il offre un débit 3 fois supérieur sur les longs contextes, avec une meilleure efficacité que des modèles basés sur Transformer de taille comparable
Il se caractérise par une approche en blocs et en couches, chaque bloc Jamba contenant une couche d’attention ou une couche Mamba, suivie d’un perceptron multicouche (MLP)
Dans cette structure, une couche Transformer est utilisée toutes les 8 couches
Il affiche d’excellents résultats sur divers benchmarks, dépassant ou égalant les performances des modèles récents de même taille sur un large éventail de tâches

Licence

Jamba est publié en open weights sous licence Apache 2.0 et disponible sur Hugging Face
À ce stade, Jamba est publié comme modèle de recherche sans les garde-fous nécessaires à un usage commercial, mais AI21 Labs prévoit de lancer une version plus sûre dans les prochaines semaines

1 commentaires

xguru 2024-03-30

Avis sur Hacker News

Partage d’un lien vers un fil récent contenant une explication de Mamba
- Deux liens sont fournis vers le fil explicatif sur Mamba et un meilleur fil.
Recommandation de la vidéo de Sasha Rush pour celles et ceux qui s’intéressent aux compromis entre les couches de transformer et les couches de modèle d’espace d’état
- La vidéo de Sasha Rush aide à comprendre les différences entre les couches de transformer et celles de modèle d’espace d’état.
Partage de problèmes rencontrés en essayant de le faire fonctionner sous Linux avec un ou deux GPU 4090
- Lors du chargement du checkpoint avec des GPU 4090 sous Linux, un problème survient ; la VRAM semble suffisante, mais cela échoue. L’auteur dit trouver cette tentative intéressante.
Accueil favorable de l’arrivée d’un modèle complet de niveau production utilisant Mamba, avec un intérêt pour les performances et le débit sur les benchmarks de longues fenêtres de contexte
- L’impression est que Mamba augmente fortement le débit lorsqu’il utilise de longs contextes, mais avec une légère perte de précision.
Remarque sur l’inefficacité des LLM (Large Language Models)
- Il est mentionné qu’il est inefficace qu’un LLM nécessite 80 Go de mémoire GPU, avec l’espoir qu’il reste une grande marge d’amélioration algorithmique.
Questionnement sur la nécessité des couches de self-attention
- Une question est posée sur la raison d’inclure des couches de self-attention, au lieu d’alterner uniquement des couches SSM et MLP.
Explication des gains de performance du modèle Jamba-v0.1-hybrid-MoE
- Selon un avis, le modèle Jamba-v0.1-hybrid-MoE offre un contexte plus long, une vitesse plus élevée et un coût plus faible que les modèles existants, ce qui mettrait fin à l’idée qu’« un seul modèle les gouverne tous ».
Signalement du problème de duplication du nom Mamba
- Il est souligné que le nom Mamba est déjà utilisé par un package Python populaire, ce qui met en avant l’importance du choix du nom.
Mention du nom Sparabo et remarque amusée sur l’association d’anciens noms à de nouvelles choses
- Une question est posée sur l’existence du nom Sparabo, avec une remarque sur le côté amusant de voir d’anciens noms réutilisés pour de nouvelles choses.
Mention du fait que le travail sur les longs contextes est lié à MemGPT, avec la suggestion qu’un concept similaire pourrait s’appliquer aux modèles basés sur l’architecture Mamba
- Référence aux travaux sur les longs contextes liés à MemGPT, avec l’idée qu’ils pourraient aussi être appliqués aux modèles fondés sur l’architecture Mamba.