Mistral 7B

(mistral.ai)

11 points par GN⁺ 2023-09-28 | 1 commentaires | Partager sur WhatsApp

Le modèle de langage le plus puissant à ce jour
Modèle de 7,3B paramètres, il surpasse Llama 2 13B sur tous les benchmarks, et Llama 1 34B sur de nombreux benchmarks
Utilise Grouped-query attention (GQA) pour une inférence plus rapide et Sliding Window Attention (SWA) pour traiter des séquences plus longues à moindre coût
Sous licence Apache 2.0, utilisable sans restriction
Peut être déployé sur n’importe quel cloud (AWS/GCP/Azure) avec le serveur d’inférence vLLM et skypilot, et peut aussi être utilisé sur HuggingFace
Facile à affiner, et le modèle affiné pour le chat surpasse Llama 2 13B Chat

1 commentaires

GN⁺ 2023-09-28

Mistral est la première entreprise, contrairement à Meta et DeciLM, à publier un modèle de cette catégorie sous licence Apache.
Ce modèle fonctionne bien sur un MacBook Air M1 et est comparable à GPT3.5.
Des questions sont posées sur la possibilité d’utiliser une « API d’appel de fonctions » pour traiter des données structurées comme le JSON.
Des inquiétudes ont été soulevées au sujet du jeu de données utilisé pour l’entraînement du modèle, ainsi que sur le risque que des fuites de benchmarks gonflent les résultats.
L’annonce du modèle a été faite via l’URI d’un tracker torrent sur Twitter.
Lors de tests d’outils d’assistance au code pour les LLMs, Mistral n’a pas été aussi performant que CodeLlama et GPT4.
Le modèle fonctionne dans FreeChat sur macOS, car il est pris en charge par llama.cpp.
Des questions sont posées sur la raison pour laquelle les projets semblent se standardiser sur des tailles de paramètres spécifiques à l’intérieur de grandes catégories comme les modèles 7B.
Des demandes ont été faites pour obtenir plus de détails sur l’entraînement du modèle, les données sur lesquelles il repose et l’endroit où il a été entraîné.
Certains demandent des tests sur la contamination des benchmarks dans le jeu d’entraînement.