- Mistral Large 2 prend en charge une fenêtre de contexte de 128k ainsi que plusieurs langues, dont le français, l’allemand, l’espagnol, l’italien, le chinois, le japonais et le coréen
- Il prend également en charge plus de 80 langages de programmation, dont Python, Java, C, C++, JavaScript et Bash
- Conçu pour l’inférence sur nœud unique, il se compose de 123 milliards de paramètres, ce qui lui permet d’offrir un débit élevé sur un seul nœud
- Il est distribué sous la Mistral Research License, qui autorise l’utilisation et la modification à des fins de recherche et non commerciales. Pour un usage commercial, il faut obtenir la Mistral Commercial License
Performances générales
- Mistral Large 2 établit une nouvelle référence sur les métriques d’évaluation performance/coût
- En particulier, sa version préentraînée atteint 84,0 % de précision sur le MMLU, établissant un nouveau point sur la frontière de Pareto performance/coût
Code et raisonnement
- Fort de l’expérience acquise avec Codestral 22B et Codestral Mamba, Mistral Large 2 a été entraîné sur de grandes quantités de code
- Mistral Large 2 surpasse largement le précédent Mistral Large et affiche des performances comparables à celles de modèles de référence comme GPT-4o, Claude 3 Opus et Llama 3 405B
- D’importants efforts ont été consacrés à l’amélioration des capacités de raisonnement du modèle, avec un affinage visant à minimiser sa tendance à générer des informations erronées
- Le modèle a été entraîné à reconnaître lorsqu’il ne trouve pas de solution ou ne dispose pas d’informations suffisantes
Suivi des instructions et alignement
- Mistral Large 2 progresse nettement en suivi des instructions et en capacités conversationnelles
- Comme la concision est essentielle dans de nombreuses applications métier, des efforts importants ont été menés pour produire des réponses aussi concises et pertinentes que possible
Diversité linguistique
- Mistral Large 2 a été largement entraîné sur des données multilingues et affiche d’excellentes performances en anglais, français, allemand, espagnol, italien, portugais, néerlandais, russe, chinois, japonais, coréen, arabe et hindi
Utilisation d’outils et appel de fonctions
- Mistral Large 2 dispose de fonctions améliorées d’appel de fonctions et de recherche, et a été entraîné pour servir de moteur à des applications métier complexes
Accès aux modèles Mistral via des fournisseurs de services cloud
- Le partenariat avec Google Cloud Platform s’étend pour proposer les modèles de Mistral AI dans Vertex AI
- Les modèles de Mistral AI sont également disponibles dans Azure AI Studio, Amazon Bedrock et IBM watsonx.ai
Résumé de GN⁺
- Mistral Large 2 prend en charge de nombreuses langues et de nombreux langages de programmation, tout en offrant un débit élevé sur un nœud unique.
- Ses capacités de génération de code et de raisonnement ont été nettement améliorées, et sa tendance à produire des informations erronées a été minimisée.
- Grâce à un entraînement approfondi sur des données multilingues, il affiche d’excellentes performances dans de nombreuses langues.
- Il est proposé aux utilisateurs du monde entier via des partenariats avec Google Cloud Platform, Azure AI Studio, Amazon Bedrock et IBM watsonx.ai.
- Il est conçu pour générer des réponses concises et ciblées dans les applications métier.
1 commentaires
Avis Hacker News