4 points par GN⁺ 2025-12-03 | 1 commentaires | Partager sur WhatsApp
  • La série Mistral 3 est une nouvelle génération de modèles d’IA open source composée de modèles compacts de 3B, 8B et 14B et de Mistral Large 3, avec 41B paramètres actifs et 675B paramètres au total
  • Tous les modèles sont publiés sous licence Apache 2.0, ce qui permet aux développeurs et aux entreprises de les utiliser et de les personnaliser librement
  • Mistral Large 3 adopte une architecture Mixture-of-Experts entraînée sur 3 000 GPU NVIDIA H200, et atteint des performances de pointe en conversations multilingues et en compréhension d’images
  • Ministral 3 est conçu pour les environnements edge, avec d’excellentes performances rapportées au coût, et la variante reasoning du modèle a atteint 85 % de précision à l’AIME ‘25
  • Mistral 3 est disponible immédiatement sur Mistral AI Studio, Hugging Face, AWS, Azure, ainsi que d’autres plateformes clés, avec pour objectif d’étendre l’écosystème open AI

Aperçu de Mistral 3

  • Mistral 3 est la nouvelle génération de modèles de Mistral AI, composée de modèles denses compacts (3B, 8B, 14B) et du grand modèle sparse Mistral Large 3
    • Mistral Large 3 est une architecture Mixture-of-Experts (MoE) avec 41B de paramètres actifs et 675B de paramètres au total
    • Tous les modèles sont publiés sous licence Apache 2.0, ce qui les rend disponibles pour la communauté open source
  • Les modèles sont fournis dans différents formats de compression, améliorant l’accessibilité via l’intelligence distribuée
  • La famille Ministral est considérée comme ayant le meilleur rapport qualité-prix parmi les modèles OSS

Mistral Large 3 : le modèle open weight le plus performant

  • Mistral Large 3 est un modèle à poids ouverts entraîné from scratch sur 3 000 GPU NVIDIA H200
    • C’est le premier modèle Mixture-of-Experts depuis la série Mixtral, reflétant les avancées préalables de pré-entraînement de Mistral
  • Après entraînement, il affiche des performances équivalentes aux meilleurs modèles à poids ouverts sur les prompts standards, et de très bons résultats en compréhension d’images et en conversation multilingue hors anglais
  • Sur le classement LMArena, il est 2e parmi les modèles OSS non-reasoning et 6e parmi tous les modèles OSS
  • Les versions base et instruct tuning sont publiées ; la version reasoning sortira prochainement

Collaboration avec NVIDIA, vLLM et Red Hat

  • Mistral Large 3 est plus facilement accessible à la communauté open source grâce à la collaboration avec vLLM et Red Hat
    • Des checkpoints au format NVFP4 réalisés avec llm-compressor sont fournis
    • Exécution efficace via vLLM sur les systèmes Blackwell NVL72, 8×A100 et 8×H100
  • La collaboration avec NVIDIA permet la prise en charge de l’inférence à faible précision dans TensorRT-LLM, SGLang, etc.
    • Intégration des noyaux Blackwell Attention et MoE, du serving prefill/decode séparé et du speculative decoding
  • Déploiement optimisé également sur les environnements edge, notamment DGX Spark, RTX PC et les appareils Jetson

Ministral 3 : modèles intelligents pour l’edge

  • La série Ministral 3, conçue pour les environnements edge et locaux, est disponible en trois tailles : 3B, 8B et 14B
    • Chaque modèle est publié en trois variantes : base, instruct et reasoning
    • Toutes les variantes incluent la compréhension d’images et le traitement multilingue
  • C’est le meilleur OSS en termes de rapport qualité-prix
    • Le modèle instruct atteint des performances équivalentes ou supérieures à celles de ses concurrents tout en réduisant le nombre de tokens d’environ dix fois
  • La variante reasoning se distingue dans les environnements centrés sur la précision, et le modèle 14B a atteint 85 % de précision à l’AIME ‘25

Déploiement et accessibilité

  • Mistral 3 est disponible immédiatement sur les plateformes suivantes :
    • Mistral AI Studio, Amazon Bedrock, Azure Foundry, Hugging Face, Modal, IBM WatsonX, OpenRouter, Fireworks, Unsloth AI, Together AI
    • Disponible prochainement aussi sur NVIDIA NIM et AWS SageMaker
  • Un service d’entraînement de modèles personnalisés pour les entreprises est proposé
    • Prise en charge de tâches spécialisées par domaine, d’amélioration des performances sur des jeux de données propriétaires et de déploiement dans des environnements spécifiques

Valeurs clés de Mistral 3

  • Performance de pointe et accessibilité ouverte : offrir des performances de niveau fermé au format open source
  • Support multimodal et multilingue : compréhension de texte, d’images et logique dans plus de 40 langues
  • Efficacité extensible : une fourchette de 3B à 675B paramètres, couvrant du edge à l’entreprise
  • Utilisation adaptable : applicable à des workflows variés, y compris le code, l’analyse de documents et l’usage d’outils

Prochaines étapes

  • La documentation modèle et les ressources techniques sont disponibles sur Mistral Docs et AI Governance Hub
  • API immédiatement utilisable via Hugging Face et la plateforme Mistral AI
  • Un canal de contact pour l’entraînement personnalisé et le fine-tuning pour entreprises est en place
  • La communauté est accessible sur Twitter/X, Discord et GitHub

Conclusion

  • Mistral 3 vise à développer un écosystème open AI basé sur la transparence, l’accessibilité et la co-évolution
  • En ouvrant de nouvelles possibilités en matière de reasoning, d’efficacité et d’applications en conditions réelles, il se positionne comme un modèle open source de nouvelle génération qui transforme la compréhension en action

1 commentaires

 
GN⁺ 2025-12-03
Commentaires sur Hacker News
  • J’utilise des grands modèles de langage (LLM) sur phrasing.app pour organiser des données dans un format cohérent
    Je suis passé à mistral-3-medium-0525 il y a quelques mois, après avoir eu beaucoup de mal avec les sorties souvent étranges de gpt-5
    Mistral est rapide, peu coûteux et suit précisément les consignes de format. En usage réel, il est bien meilleur que ne le laissent penser les benchmarks
    Très occasionnellement (0,1 %), il produit un résultat bizarre, mais il reste bien plus stable que gpt-5 avec son taux d’échec de 15 %
    Je vais bientôt tester les nouveaux modèles et partager les résultats

    • Avant, j’avais plusieurs abonnements à des chatbots, mais aujourd’hui j’alterne entre Grok, ChatGPT, Gemini, Deepseek, Mistral
      Avec les API, le plus gros avantage est selon moi qu’un modèle se comporte comme prévu
      Maintenant, je choisis les modèles dont j’ai besoin via Openrouter
      Je pense que si les chatbots financés par la publicité se multiplient récemment, c’est parce que, contrairement aux benchmarks, les utilisateurs réels ne voient pas la différence et annulent leurs abonnements payants
      Aujourd’hui encore, OpenAI m’a proposé un mois d’essai gratuit, comme s’ils avaient oublié que je l’avais déjà utilisé il y a deux mois
    • J’ai eu une expérience similaire. Les modèles Mistral ne sont peut-être pas les meilleurs dans les benchmarks, mais pour des tâches simples comme la classification ou le résumé, ce sont les plus efficaces
      En particulier, mistral-small avec la batch API offre un excellent rapport coût-performance
    • J’ai l’impression qu’il y a des limites à la façon d’évaluer les LLM par benchmark
      Le surapprentissage peut nuire à l’utilisabilité réelle, et si Chatbot Arena a été créé, c’était justement pour ce type d’évaluation en conditions réelles
      Mais même cela est critiqué comme étant biaisé vers des éléments comme le respect du format ou la flatterie
      Au final, je pense qu’il faut davantage de modèles spécialisés par tâche
    • Merci d’avoir partagé ce cas d’usage des modèles Mistral
      Cela dit, la formule “Hand-crafted by humans” sur phrasing.app m’a semblé un peu ironique, étant donné qu’en réalité vous utilisez un LLM avancé
    • Je me demande si vous voulez dire que gpt-5 produit des sorties étranges avec une probabilité de 15 %
      Avez-vous éventuellement comparé le taux d’erreur de Mistral avec le taux d’échec de gpt-5.1 sur des tâches complexes ?
      Et je me demande aussi si Mistral a un modèle de Tool Use. Ce serait bienvenu s’il y avait un nouveau modèle orienté code
  • Il est intéressant de voir que le nouveau grand modèle utilise l’architecture DeepseekV2
    Ce n’est pas mentionné sur la page officielle, mais je pense que c’est une bonne chose que les modèles open source adoptent des structures récentes
    K2 a suivi une approche similaire, et en regardant le code réel (mistral_large_3.py), on voit qu’il est basé sur DeepseekV3
    Comme le dit la formule « la science progresse toujours grâce à l’ouverture et au partage », cette transparence est appréciable
    Je vais maintenant tester le modèle 14B à la maison, et j’attends aussi avec intérêt l’ajout des fonctionnalités Vision

    • Au final, on dirait qu’ils ont concentré la R&D sur la copie de Deepseek et qu’ils ont moins investi dans Vision, leur seule vraie nouveauté
      La page Hugging Face indique elle aussi que Mistral Large 3 est moins performant sur les tâches multimodales que les modèles spécialisés en Vision
    • En réalité, j’ai l’impression qu’aujourd’hui ce sont moins les différences d’architecture que les données, le tuning et les pipelines qui déterminent les performances d’un modèle
    • Exiger que tout soit publié, puis critiquer ce qui est effectivement publié une fois qu’on l’utilise, me semble être un double standard
  • Il est étonnant que le modèle Vision 3B puisse s’exécuter directement dans le navigateur
    Il suffit de télécharger un modèle de 3 Go pour le lancer, et il existe une démo Hugging Face
    Le billet de Simon Willison vaut aussi le détour

    • Avec ce type de technologie, on pourrait créer des outils d’accessibilité comme un outil de description vidéo en temps réel pour les personnes malvoyantes
      J’imagine une fonction qui ne décrive pas seulement la voix, mais aussi les actions visibles dans la vidéo
  • Cela fait plaisir de revoir Mistral, côté européen, après un certain temps
    Son retour à l’open source sous licence Apache 2.0 est également positif
    Pendant un moment, la société était la meilleure sur les petits modèles pour GPU grand public, et j’espère que ce Ministral 14B sera à la hauteur des benchmarks

    • En réalité, je pense que ce genre de réussite est dû aux financements des VC américains
      En Europe, il aurait été difficile d’obtenir des fonds de cette ampleur pour entraîner une IA
  • Le nouveau modèle est impressionnant, mais c’est dommage qu’il n’y ait pas de comparaison avec des modèles SOTA comme OpenAI, Google ou Anthropic
    Cela rend sa position globale difficile à situer

    • Si l’on regarde les résultats de LMArena, Mistral Large 3 est 28e, et l’écart de score avec les meilleurs modèles n’est pas énorme
      Le meilleur modèle a 1491 points, Mistral 1418, donc l’écart de performance est faible
    • Mais ce type de comparaison semble pouvoir tomber sous le coup des régulations sur la publicité, donc les entreprises l’évitent sans doute
    • De toute façon, Mistral sait probablement qu’il lui est difficile de rivaliser avec les modèles fermés
      Le fait de ne pas le comparer non plus à GPT-OSS donne une impression de démarche un peu prudente
    • Je pense que le simple fait de ne pas avoir publié les résultats de comparaison en dit déjà long
  • J’encourage les efforts de l’Europe

    • Mais il ne faut pas oublier qu’au sein même de l’Europe, il y a beaucoup de recherche active en IA, comme DeepMind à Londres
    • J’aimerais équilibrer cela avec la blague selon laquelle « Windows 11 est le plus grand chef-d’œuvre des États-Unis »
  • Honnêtement, on a l’impression que Deepseek 3.2 a capté toute l’attention hier
    C’est dommage que cette comparaison se base sur Deepseek 3.1
    D’après la news officielle, la version 3.2 a apporté de grosses améliorations

  • Je ne comprends toujours pas bien quelle est l’incitation à publier de bons poids de modèle
    Quand OpenAI sort un modèle comme gpt-oss, ce peut être pour des raisons de RP,
    et on dirait que les entreprises chinoises utilisent une stratégie similaire pour fragiliser la position des Big Tech américaines
    Je me demande si l’on continuera à voir arriver de bons modèles à poids ouverts

    • Parce qu’il est difficile de gagner de l’argent avec des modèles fermés
      Les poids ouverts ouvrent des canaux de revenus secondaires, comme des services de fine-tuning pour les entreprises
      La transparence, le contrôle, la confidentialité et la réduction des coûts sont importants pour les entreprises
      Donc, à long terme, cet écosystème ouvert pourrait grignoter les modèles fermés
      Voir aussi Mistral Custom Model Training
    • gpt-oss n’est pas un simple modèle pour benchmark, il est réellement très fort en résolution de problèmes mathématiques
      Il reste aussi bien placé dans la compétition AIME3 de Kaggle
    • Comme le modèle économique reste flou pour l’instant, les entreprises d’IA se concentrent davantage sur l’obtention de financements VC que sur la création du meilleur modèle possible
      Publier des modèles ouverts fait fortement monter leur valorisation et aide à obtenir des GPU
      Cela dit, si aucun modèle économique durable n’émerge au final, ce sera un gros problème
    • gpt-oss a d’excellentes performances en appels d’outils et est globalement stable
    • Google donne fortement l’impression de manipuler les benchmarks
      Gemini est devant dans les benchmarks, mais moins bon en usage réel
  • J’ai comparé les scores globaux de benchmark de plusieurs modèles
    Gemini 3.0 Pro est premier avec 84,8, DeepSeek 3.2 a 83,6, GPT-5.1 est à 69,2
    Mistral Large 3 est bas à 41,9, mais les modèles 14B, 8B et 3B sont au niveau SOTA,
    et ils n’ont pas les problèmes de censure de Qwen3

    • Je me demande d’où vient le grand écart entre Gemini 3 et GPT-5.1/Opus 4.5
      J’aimerais savoir dans quels domaines Gemini est aussi fort
  • Dans les benchmarks, Gemini est au sommet, mais en pratique, j’ai l’impression qu’il est moins bon que ChatGPT ou Claude
    Il raconte plus souvent n’importe quoi, et on dirait que Google cherche seulement à faire monter ses scores de benchmark
    J’espère que l’open source comme Mistral grignotera ce marché

    • Le but des LLM à poids ouverts n’est pas de battre les modèles fermés
      Ils servent plutôt de contrepoids dans l’écosystème et ont de la valeur pour éviter les monopoles
    • J’ai utilisé Gemini en apprenant à mettre en place un cluster k8s on-prem, et sur ce sujet il a été très précis
      C’est sans doute parce que ce domaine est bien représenté dans ses données d’entraînement
    • Pour mes questions, Gemini 3 avait moins d’hallucinations que GPT-5.1
    • Personnellement, Gemini a été le plus décevant, et cette promotion excessive me semble peu naturelle
    • En dehors des tâches de code, Gemini peut plus facilement fournir des éléments à l’appui grâce à son intégration avec Google Search