- AI21 Labs a lancé Jamba, le premier modèle d’IA au monde de niveau production basé sur l’architecture Mamba
- Jamba combine les points forts de Mamba SSM (modèle d’espace d’état structuré) et de l’architecture Transformer traditionnelle pour offrir des performances impressionnantes et des gains d’efficacité
- Une vaste fenêtre de contexte de 256K tokens. Jusqu’à 140K tokens traités sur un seul GPU de 80 Go
L’architecture hybride et les performances de Jamba
- Jamba exploite une architecture hybride SSM-Transformer avec des couches Mixture of Experts (MoE), n’utilisant que 12B paramètres en inférence sur un total de 52B paramètres
- Il peut gérer un contexte bien plus long que des modèles concurrents comme Llama 2 de Meta, tout en conservant un débit élevé et une grande efficacité
- Il offre un débit 3 fois supérieur sur les longs contextes, avec une meilleure efficacité que des modèles basés sur Transformer de taille comparable
- Il se caractérise par une approche en blocs et en couches, chaque bloc Jamba contenant une couche d’attention ou une couche Mamba, suivie d’un perceptron multicouche (MLP)
- Dans cette structure, une couche Transformer est utilisée toutes les 8 couches
- Il affiche d’excellents résultats sur divers benchmarks, dépassant ou égalant les performances des modèles récents de même taille sur un large éventail de tâches
Licence
- Jamba est publié en open weights sous licence Apache 2.0 et disponible sur Hugging Face
- À ce stade, Jamba est publié comme modèle de recherche sans les garde-fous nécessaires à un usage commercial, mais AI21 Labs prévoit de lancer une version plus sûre dans les prochaines semaines
1 commentaires
Avis sur Hacker News