11 points par GN⁺ 2023-09-28 | 1 commentaires | Partager sur WhatsApp
  • Le modèle de langage le plus puissant à ce jour
  • Modèle de 7,3B paramètres, il surpasse Llama 2 13B sur tous les benchmarks, et Llama 1 34B sur de nombreux benchmarks
  • Utilise Grouped-query attention (GQA) pour une inférence plus rapide et Sliding Window Attention (SWA) pour traiter des séquences plus longues à moindre coût
  • Sous licence Apache 2.0, utilisable sans restriction
  • Peut être déployé sur n’importe quel cloud (AWS/GCP/Azure) avec le serveur d’inférence vLLM et skypilot, et peut aussi être utilisé sur HuggingFace
  • Facile à affiner, et le modèle affiné pour le chat surpasse Llama 2 13B Chat

1 commentaires

 
GN⁺ 2023-09-28
Avis Hacker News
  • Mistral est la première entreprise, contrairement à Meta et DeciLM, à publier un modèle de cette catégorie sous licence Apache.
  • Ce modèle fonctionne bien sur un MacBook Air M1 et est comparable à GPT3.5.
  • Des questions sont posées sur la possibilité d’utiliser une « API d’appel de fonctions » pour traiter des données structurées comme le JSON.
  • Des inquiétudes ont été soulevées au sujet du jeu de données utilisé pour l’entraînement du modèle, ainsi que sur le risque que des fuites de benchmarks gonflent les résultats.
  • L’annonce du modèle a été faite via l’URI d’un tracker torrent sur Twitter.
  • Lors de tests d’outils d’assistance au code pour les LLMs, Mistral n’a pas été aussi performant que CodeLlama et GPT4.
  • Le modèle fonctionne dans FreeChat sur macOS, car il est pris en charge par llama.cpp.
  • Des questions sont posées sur la raison pour laquelle les projets semblent se standardiser sur des tailles de paramètres spécifiques à l’intérieur de grandes catégories comme les modèles 7B.
  • Des demandes ont été faites pour obtenir plus de détails sur l’entraînement du modèle, les données sur lesquelles il repose et l’endroit où il a été entraîné.
  • Certains demandent des tests sur la contamination des benchmarks dans le jeu d’entraînement.