11 points par xguru 2024-07-17 | 2 commentaires | Partager sur WhatsApp
  • Modèle de langage Mamba2 spécialisé dans la génération de code
  • Les modèles Mamba, contrairement aux modèles Transformer, offrent une inférence en temps linéaire et la capacité de modéliser des séquences de longueur théoriquement infinie
    • Des réponses rapides quelle que soit la longueur d’entrée permettent aux utilisateurs d’interagir largement avec le modèle
    • Cette efficacité a un impact particulier sur la productivité de codage, au point d’atteindre des performances comparables à celles des modèles SOTA basés sur des Transformers
  • Dans les benchmarks, pour les modèles 7B, Codestral Mamba (7B) montre des capacités supérieures ou presque équivalentes à celles de CodeGemma-1.1 7B, CodeLlama 7B et DeepSeek v1.5 7B
  • Il devrait devenir un excellent assistant de code en local
  • Déployable via le SDK mistral-inference et TensorRT-LLM, avec une prise en charge également prévue dans llama.cpp pour l’inférence locale
  • Les poids bruts sont téléchargeables sur HuggingFace

2 commentaires

 
xguru 2024-07-17

Avis sur Hacker News

  • Des étapes sont nécessaires pour l’exécuter dans VS Code

    • Inclure dans le billet un lien vers les instructions ou un lien d’installation en un clic de l’extension VS Code aiderait à son adoption
    • C’est un modèle susceptible d’intéresser beaucoup d’utilisateurs, mais l’absence d’appel à l’action monétisable pose problème
  • Demande de recommandations de modèles avec une fonctionnalité FIM

    • Utilise actuellement codellama-13b avec une extension vim, mais les performances ne sont pas très bonnes
    • Gemma-27b génère un meilleur code, mais n’a pas de fonctionnalité FIM
    • codellama-34b n’assure pas correctement l’inférence
  • Il faudrait mettre DeepSeek en avant dans la colonne MBPP

    • DeepSeek obtient un meilleur score que Codestral
  • Ils ont annoncé que le modèle était sur HuggingFace, mais n’ont pas fourni le lien

  • C’est bien de voir un modèle très en vue utiliser Mamba2

  • Ils affirment que Mamba est plus rapide, mais ne donnent aucun chiffre de latence

    • Quelqu’un l’a-t-il essayé, et est-ce vraiment plus rapide ?
  • Recommande une présentation produit sur les avantages et inconvénients de Mamba et des Transformers

  • Se demande s’il existe une bonne explication de l’architecture Mamba

  • Recommande une vidéo ou un article adapté à quelqu’un qui comprend le concept général des LLM, mais n’a utilisé que des outils largement publics comme ChatGPT, Claude, etc.

    • Souhaite vérifier s’il dispose du matériel nécessaire pour l’exécuter en local, mais ne sait pas par où commencer
  • A effectué un test rapide dans le playground model.box

    • La longueur des complétions est sensiblement plus courte qu’avec d’autres modèles (par ex. gpt-4o)
    • La vitesse de réponse correspond aux attentes