11 points par xguru 2024-03-30 | 1 commentaires | Partager sur WhatsApp
  • AI21 Labs a lancé Jamba, le premier modèle d’IA au monde de niveau production basé sur l’architecture Mamba
  • Jamba combine les points forts de Mamba SSM (modèle d’espace d’état structuré) et de l’architecture Transformer traditionnelle pour offrir des performances impressionnantes et des gains d’efficacité
  • Une vaste fenêtre de contexte de 256K tokens. Jusqu’à 140K tokens traités sur un seul GPU de 80 Go

L’architecture hybride et les performances de Jamba

  • Jamba exploite une architecture hybride SSM-Transformer avec des couches Mixture of Experts (MoE), n’utilisant que 12B paramètres en inférence sur un total de 52B paramètres
  • Il peut gérer un contexte bien plus long que des modèles concurrents comme Llama 2 de Meta, tout en conservant un débit élevé et une grande efficacité
  • Il offre un débit 3 fois supérieur sur les longs contextes, avec une meilleure efficacité que des modèles basés sur Transformer de taille comparable
  • Il se caractérise par une approche en blocs et en couches, chaque bloc Jamba contenant une couche d’attention ou une couche Mamba, suivie d’un perceptron multicouche (MLP)
  • Dans cette structure, une couche Transformer est utilisée toutes les 8 couches
  • Il affiche d’excellents résultats sur divers benchmarks, dépassant ou égalant les performances des modèles récents de même taille sur un large éventail de tâches

Licence

  • Jamba est publié en open weights sous licence Apache 2.0 et disponible sur Hugging Face
  • À ce stade, Jamba est publié comme modèle de recherche sans les garde-fous nécessaires à un usage commercial, mais AI21 Labs prévoit de lancer une version plus sûre dans les prochaines semaines

1 commentaires

 
xguru 2024-03-30

Avis sur Hacker News

  • Partage d’un lien vers un fil récent contenant une explication de Mamba
  • Recommandation de la vidéo de Sasha Rush pour celles et ceux qui s’intéressent aux compromis entre les couches de transformer et les couches de modèle d’espace d’état
    • La vidéo de Sasha Rush aide à comprendre les différences entre les couches de transformer et celles de modèle d’espace d’état.
  • Partage de problèmes rencontrés en essayant de le faire fonctionner sous Linux avec un ou deux GPU 4090
    • Lors du chargement du checkpoint avec des GPU 4090 sous Linux, un problème survient ; la VRAM semble suffisante, mais cela échoue. L’auteur dit trouver cette tentative intéressante.
  • Accueil favorable de l’arrivée d’un modèle complet de niveau production utilisant Mamba, avec un intérêt pour les performances et le débit sur les benchmarks de longues fenêtres de contexte
    • L’impression est que Mamba augmente fortement le débit lorsqu’il utilise de longs contextes, mais avec une légère perte de précision.
  • Remarque sur l’inefficacité des LLM (Large Language Models)
    • Il est mentionné qu’il est inefficace qu’un LLM nécessite 80 Go de mémoire GPU, avec l’espoir qu’il reste une grande marge d’amélioration algorithmique.
  • Questionnement sur la nécessité des couches de self-attention
    • Une question est posée sur la raison d’inclure des couches de self-attention, au lieu d’alterner uniquement des couches SSM et MLP.
  • Explication des gains de performance du modèle Jamba-v0.1-hybrid-MoE
    • Selon un avis, le modèle Jamba-v0.1-hybrid-MoE offre un contexte plus long, une vitesse plus élevée et un coût plus faible que les modèles existants, ce qui mettrait fin à l’idée qu’« un seul modèle les gouverne tous ».
  • Signalement du problème de duplication du nom Mamba
    • Il est souligné que le nom Mamba est déjà utilisé par un package Python populaire, ce qui met en avant l’importance du choix du nom.
  • Mention du nom Sparabo et remarque amusée sur l’association d’anciens noms à de nouvelles choses
    • Une question est posée sur l’existence du nom Sparabo, avec une remarque sur le côté amusant de voir d’anciens noms réutilisés pour de nouvelles choses.
  • Mention du fait que le travail sur les longs contextes est lié à MemGPT, avec la suggestion qu’un concept similaire pourrait s’appliquer aux modèles basés sur l’architecture Mamba
    • Référence aux travaux sur les longs contextes liés à MemGPT, avec l’idée qu’ils pourraient aussi être appliqués aux modèles fondés sur l’architecture Mamba.