Présentation de Mistral Medium 3.5
(mistral.ai)- Modèle 128B Dense qui unifie l’exécution d’instructions, le raisonnement et le code dans un seul jeu de poids, avec prise en charge d’une fenêtre de contexte de 256k
- Possibilité d’ajuster l’effort de raisonnement à chaque requête, afin de couvrir avec un seul modèle aussi bien les chats simples que les tâches agentiques complexes
- SWE-Bench Verified 77,6 %, τ³-Telecom 91,4 points, au-dessus de Devstral 2 et de Qwen3.5 397B A17B
- Nouvel entraînement de l’encodeur de vision pour prendre en charge des tailles d’image et des formats d’aspect variables
- Avec Vibe Remote Agent, les sessions de code s’exécutent de façon asynchrone dans le cloud, avec plusieurs sessions en parallèle et notification à la fin
- Démarrage possible via le CLI ou Le Chat, et téléportation d’une session locale vers le cloud en conservant l’historique, l’état et l’historique des validations
- Chaque session s’exécute dans un sandbox isolé et crée automatiquement une GitHub PR à la fin
- Intégration avec les outils de développement existants comme GitHub, Linear, Jira, Sentry, Slack et Teams
- Adapté aux tâches répétitives et bien définies comme la refactorisation de modules, la génération de tests, la mise à niveau de dépendances, l’investigation CI et la correction de bugs
- Le mode Work de Le Chat (preview) utilise simultanément plusieurs outils comme l’e-mail, le calendrier et la messagerie pour exécuter automatiquement des tâches en plusieurs étapes jusqu’à leur achèvement
- Connecteurs activés par défaut, affichage de tous les appels d’outils et de la logique de raisonnement, demande d’approbation explicite pour les actions sensibles
- Tarification API : 1,5 $ par million de tokens en entrée, 7,5 $ par million de tokens en sortie
- Poids open weight publiés sous licence MIT modifiée, avec possibilité d’auto-hébergement à partir de 4 GPU minimum
1 commentaires
Avis Hacker News
Je ne vois pas ce que tout le monde regarde dans les commentaires. Ce modèle ne bat peut-être pas les autres, mais il est clairement compétitif par rapport à sa taille
GLM 5.1 est excellent, mais il demande environ 400 Go même en Q4, et Kimi K2.5 est bien aussi, mais nécessite presque 600 Go en quantification Q4
Ce modèle peut tourner en Q4 sur 70 Go de VRAM, ce qui le rapproche du segment grand public. On est à un niveau où l’on peut acheter un Mac Studio avec 128 Go de RAM pour environ 3 500 dollars
Je ne sais pas si les gens obsédés par Claude n’utilisent qu’Opus, mais Sonnet était déjà très compétent dans l’offre Pro. Ce modèle tourne en local, bat le dernier Sonnet, et ne facture pas un supplément ni ne verrouille arbitrairement votre compte parce qu’il y a un HERMES.md dans le repo
Mistral n’a jamais vraiment été compétitif à la frontière, mais peut-être que ce n’est pas le rôle qu’on doit attendre de Mistral. Si c’est un modèle de Pareto qui offre 80 % du frontier pour 20 % du coût/de la taille, ça me semble largement suffisant
On peut exécuter ce genre de modèle sur un Mac 128 Go, mais il faut d’abord voir si le Q4 conserve suffisamment la qualité. Chaque modèle a une sensibilité à la quantification différente, et la vitesse réelle compte aussi
Pour les tâches asynchrones ou en arrière-plan, la vitesse de traitement du prompt et de génération des tokens est moins importante, mais beaucoup d’acheteurs de Mac Studio ont découvert à leurs dépens que la réactivité n’est pas au niveau d’un modèle hébergé sur du vrai matériel cloud
Pour la plupart des gens qui n’ont pas de fortes contraintes on-premise, le meilleur usage de ce modèle sera peut-être de passer par l’un des hébergeurs OpenRouter et de payer au token
On nous a dit que presque tous les modèles open weights sortis cette année égalent ou dépassent Sonnet, mais même quand ils sont clairement devant sur benchmark, je n’ai pas encore eu cette impression en pratique
J’aime bien l’expression Claude Pilled
Les benchmarks sont en F8_E4M3, et ça, on ne le fera tourner sur aucun Mac
Sonnet a un contexte de 1M de tokens, alors que ce modèle est à 256k, et en local il est probable qu’on ne puisse même pas vraiment exploiter ça correctement
Sonnet est rapide même via le réseau, alors que ce modèle sera bien plus lent
C’est dommage de voir les modèles open source hors de Chine sembler avoir au moins une génération de retard
Je soutiens toujours Mistral. La diversité des modèles et des pays est importante
Ce modèle ressemble à une base solide sur laquelle construire, et j’espère qu’on verra davantage d’améliorations dans les 3.6/3.7. Quand on regarde les benchmarks de computer use, il semble y avoir une marge de progression sur la pipeline vision, mais ce n’est qu’une supposition
Le fait que certains résultats de benchmark diffèrent donne l’impression d’un modèle réellement entraîné de manière indépendante, et non pas d’un simple pompage des logs frontier. C’est aussi très important
Le fait qu’une architecture de weights différente existe dans un modèle donné peut en soi être un avantage du point de vue de l’architecture globale du système
Le fait que Mistral continue de sortir des modèles fiables est bon pour le marché
Pour que les acheteurs aient un vrai pouvoir de négociation sur les prix et le déploiement, il faut sortir d’un monde où l’on ne choisit qu’entre deux entreprises
Par rapport aux autres LLM hébergés que j’ai testés, Mistral semble être le seul à utiliser des en-têtes CSP assez stricts
Si on lui demande de créer un site web avec des bibliothèques JavaScript, l’aperçu ne fonctionne pas dans Le Chat, même s’il y a un canvas mode
Quand une nouvelle version sort, j’ai parfois juste envie de faire quelques tests rapides sur le web, mais sans payer ou utiliser un agent harness, c’est difficile
Il est vraiment mauvais pour dessiner du SVG https://chat.mistral.ai/chat/23214adb-5530-4af9-bb47-90f5219...
Je lui ai demandé de m’aider à configurer un serveur MCP, et il m’a expliqué avec assurance que MCP signifiait MineCraft Protocol, avant de se mettre à chercher des binaires Minecraft sur mon ordinateur
Tous les modèles échouent là-dessus, certains échouent juste de façon plus amusante
J’utilise mistral-medium-2508 pour des tâches de transformation de texte, et dans mon cas il donne de meilleurs résultats que mistral-large
J’aimerais tester le nouveau modèle, mais il est bien plus cher et présenté comme un modèle coding/agentic, donc je ne sais pas s’il est censé remplacer l’ancien modèle medium
mistral-medium-2508 était à $0.4/$2 par 1M de tokens, et mistral-medium-3.5 est à $1.5/$7.5
Il donne des résultats presque au niveau de Sonnet tout en étant 90 % moins cher. Je ne l’utiliserais jamais pour du code, mais pour cette tâche d’analyse de texte il a été excellent. Il a même été nettement meilleur que les derniers modèles chinois
Donc j’attendais cette release, mais elle coûte 5 fois plus cher que le dernier Mistral Large. J’ai maintenant peur qu’ils arrêtent le Large bon marché en basculant les releases
Le problème de ce modèle, c’est que DeepSeek v4 Flash tourne plutôt bien en quantification 2 bits https://github.com/antirez/llama.cpp-deepseek-v4-flash
Sur un M3 Ultra, on obtient 30 t/s en génération et 400 t/s en prefill, et sur un MacBook Pro M3 Max 128 Go ce n’est pas beaucoup plus lent
Avec opencode/pi, ça fait un bon agent de code, et le tool calling est très stable. Un modèle dense 120B n’atteindra jamais cette vitesse
Il doit donc rivaliser non seulement avec des modèles quantifiés 4 bits de taille similaire, mais aussi avec DeepSeek v4 Flash, qui est un fichier GGUF de 86 Go, et du point de vue concret de l’inférence locale, ce ne sera pas facile de l’emporter
Il y a encore des améliorations de vitesse non commit qui devraient être poussées bientôt. L’arbre actuel est peut-être un peu plus lent, mais reste très utilisable
Je suis en Europe et fan de Mistral, mais il y a quelque chose que je ne comprends pas. Mistral a lancé la dynamique des MoE open weights avec Mixtral, alors pourquoi sortir maintenant un modèle dense assez gros ?
Avec cette approche, il sera difficile de rivaliser de façon crédible, ni en inférence locale ni en inférence distante. Le modèle est loin du SOTA et le coût de serving n’est pas faible
Les modèles denses ont leur place autour de quelques dizaines de milliards de paramètres, comme Qwen 3.6 27B, mais à 5 fois cette taille, ça n’a pas de sens à moins d’écraser en capacités les autres modèles qui demandent la même VRAM
Cela n’a quasiment rien à voir avec son comportement dans un workflow agentique. On sait déjà que la qualité se dégrade souvent fortement en quantification Q2
Si cette version quantifiée de Flash maintient une qualité et des performances correctes sur de plus grandes longueurs de contexte, en conservant ce qui semble être les fonctionnalités clés de la série V4, alors elle pourrait devenir un concurrent tout à fait raisonnable, dans la même classe de weights, pour des modèles comme Qwen 3 Coder-Next 80B
Cette sortie de Mistral rappelle à quel point l’écart entre les labs frontier et les autres acteurs reste important
Avant les agents, les différences entre modèles n’étaient pas toujours évidentes, et chacun avait ses qualités
Maintenant, je n’ai plus envie d’utiliser quoi que ce soit d’inférieur à un modèle frontier. L’écart de capacités est énorme, et choisir moins bon a un coût réel en productivité
J’ai toujours bien aimé les petits labs comme Mistral ou surtout Cohere, mais cela fait un moment qu’aucune de leurs sorties ne m’enthousiasme
Cela dit, j’utilise mistral voxtral realtime tous les jours, et c’est excellent
Et il y a deux ans, n’en parlons même pas
En revanche, Claude Code est nettement meilleur que Codex, et Codex est clairement meilleur que Gemini-cli
Dans ce contexte, il n’est pas surprenant que Claude Code soit bien supérieur aux modèles non-frontier sur le coding agentique. Il est même nettement meilleur que les autres modèles frontier sur certaines tâches agentiques spécialisées
Pour la plupart des tâches, y compris le codage complexe, il est presque impossible de distinguer la différence entre les modèles frontier et des modèles comme GPT-4.1
Pour voir une différence, il faut vraiment se concentrer sur des aspects comme la taille de la fenêtre de contexte, le tool calling, ou certains éléments du raisonnement par étapes
En plus, les modèles frontier adoptent souvent une approche de brute force pour produire un résultat, ce qui augmente fortement le coût d’exécution. Pas seulement le coût visible sur la facture, mais aussi le temps d’attente avant d’obtenir n’importe quelle sortie
Et je ne parle même pas des modèles locaux
Mistral semble jouer le long game ici : des modèles plus petits, moins chers, et des performances globalement suffisantes
C’est correct, mais pas exceptionnel. Cela dit, avoir des nouvelles d’un modèle qui ne vient ni des États-Unis ni de Chine reste une bonne nouvelle
C’est drôle de voir que 128B est maintenant considéré comme du Medium
Il fut un temps où GPT-2 avec 355M paramètres était considéré comme medium
Avec le recul, ce jugement n’était peut-être pas faux