3 points par GN⁺ 2025-06-11 | 1 commentaires | Partager sur WhatsApp
  • Magistral est le premier modèle de raisonnement publié par Mistral AI, spécialisé dans le raisonnement adapté à des domaines spécifiques, la transparence et le raisonnement multilingue
  • Lancé en deux versions : Magistral Small (24B paramètres) en open source et Magistral Medium, version enterprise
  • Fournit de manière transparente un raisonnement multilingue fondé sur la chaîne de pensée (Chain of Thought), avec un processus logique étape par étape dans la langue de l’utilisateur
  • Sur AIME2024, Magistral Medium atteint 73,6 % (jusqu’à 90 %), et Small 70,7 % (jusqu’à 83,3 %)
  • Prend en charge un déroulé logique précis, étape par étape ainsi qu’une vitesse de réponse 10 fois plus rapide pour des secteurs et usages variés, notamment les industries réglementées comme le juridique, la finance et la santé, ainsi que le data engineering, le développement logiciel et les contenus créatifs

Magistral — annonce du premier modèle de raisonnement de Mistral AI

  • Magistral est un modèle de reasoning axé sur la résolution de problèmes concrets et l’amélioration fondée sur le feedback
  • Magistral Small est la version open source à 24B paramètres, tandis que Magistral Medium est une version enterprise plus puissante, publiée en parallèle
  • Indicateurs de performance :
    • Magistral Medium : 73,6 % sur AIME2024, jusqu’à 90 % avec vote majoritaire
    • Magistral Small : respectivement 70,7 % et 83,3 %
  • Application d’un raisonnement Chain of Thought basé sur les langues et écritures du monde entier, permettant un déroulé de pensée de niveau langue maternelle
  • Adapté à divers types de tâches comme le calcul structuré, la logique de programmation, les arbres de décision et les systèmes fondés sur des règles
  • Les fonctions Think mode et Flash Answers de Le Chat améliorent la vitesse de réponse jusqu’à 10 fois par rapport à la concurrence
  • Le papier officiel inclut une évaluation complète des algorithmes, de l’infrastructure d’entraînement, des techniques de reinforcement learning et des enseignements tirés de l’entraînement

Détails sur le modèle et la technologie

  • Processus de raisonnement transparent :
    • Magistral est optimisé pour une logique en plusieurs étapes, permettant à l’utilisateur de consulter et suivre le processus de raisonnement dans sa propre langue
    • Contrairement aux modèles généralistes, il renforce l’interprétabilité et les capacités de vérification
    • Objectif : mises à jour continues du modèle et améliorations rapides
  • Raisonnement multilingue : forte précision et maintien de la logique en anglais, français, espagnol, allemand, italien, arabe, russe, chinois, etc.
  • Vitesse de réponse :
    • Grâce à la fonction Flash Answers de Le Chat, Magistral Medium prend en charge le raisonnement en temps réel et le feedback avec une vitesse de traitement des tokens 10 fois supérieure à celle des concurrents
    • Démonstration d’une supériorité marquée en vitesse face aux grands modèles concurrents comme ChatGPT

Open source et participation de la communauté

  • Magistral Small est publié sous licence Apache 2.0
  • Les utilisateurs peuvent analyser, modifier et reconfigurer directement sa structure et sa méthode de raisonnement
  • Les précédents modèles open source ont été utilisés dans des projets de recherche innovants comme ether0 et DeepHermes 3

Cas d’usage étendus

  • Magistral est optimisé pour les domaines où le raisonnement précis étape par étape et la transparence sont essentiels, comme le droit, la finance, le développement logiciel et le storytelling
  • Stratégie et opérations d’entreprise

    • Peut prendre en charge la planification stratégique, l’évaluation des risques, la prise de décision fondée sur les données et le calcul de solutions optimales sous contraintes complexes
  • Industries réglementées et secteur public

    • Les professionnels du droit, de la finance, de la santé et des administrations peuvent suivre les chemins de raisonnement logique et assurer l’auditabilité
    • Aide à satisfaire les exigences d’auditabilité et de conformité réglementaire
  • Systèmes, logiciel et data engineering

    • Améliore la qualité du support en programmation, conception de projets, architecture backend et data engineering par rapport aux LLM non orientés raisonnement
    • Efficace pour les tâches en plusieurs étapes impliquant des outils externes ou des intégrations API
  • Génération de contenu et communication

    • Magistral obtient aussi d’excellents résultats en écriture créative et en storytelling
    • Il peut produire non seulement des textes cohérents, mais aussi des idées originales et inventives

Méthodes d’utilisation et canaux de déploiement

  • La version Small peut être téléchargée puis déployée en autonomie
  • La version Medium est disponible immédiatement sur Le Chat (web), API et Amazon SageMaker
  • Une prise en charge supplémentaire est prévue prochainement sur IBM WatsonX, Azure AI et Google Cloud Marketplace
  • Pour une intégration sur mesure en entreprise ou un déploiement on-premise, contact séparé requis

1 commentaires

 
GN⁺ 2025-06-11
Commentaires Hacker News
  • Je partage mon expérience d’avoir moi-même créé et mis en ligne une version GGUF du modèle Magistral Small sur HuggingFace. On peut l’exécuter dans ollama avec la commande ollama run hf.co/unsloth/Magistral-Small-2506-GGUF:UD-Q4_K_XL, et il est fortement recommandé d’utiliser dans llama.cpp des options comme --jinja, --temp 0.7, --top-p 0.95. Il est aussi conseillé d’augmenter la longueur de contexte d’Ollama à 8192 ou plus, et des indications supplémentaires sont disponibles dans la documentation officielle
    • La comparaison des benchmarks liés à DeepSeek est un point intéressant. L’article Magistral compare aux versions DeepSeek-V3 (décembre 2023) et DeepSeek-R1 (janvier 2024), mais la comparaison la plus juste serait en réalité avec la version plus récente DeepSeek-R1-0528. Par exemple, R1 obtient 79,8 sur AIME 2024 alors que R1-0528 atteint 91,4, et sur AIME 2025 les scores sont respectivement de 70 et 87,5, ce qui montre un écart important. Les benchmarks DeepSeek les plus récents sont disponibles ici
    • Le papier Magistral (PDF) est jugé vraiment impressionnant. Il présente, autour de GRPO, plusieurs améliorations : 1) suppression de la divergence KL 2) normalisation sur la longueur totale 3) normalisation des minibatchs d’advantage 4) assouplissement de la trust region
    • Malgré les risques liés à la vérification d’âge, le modèle Unsloth est encensé comme étant vraiment « incroyable ». La personne dit en être très satisfaite car il fonctionne toujours bien, et se demande ce que llama.cpp utilise par défaut quand on ne met pas jinja
    • Avec une idée de ne pas trop se prendre la tête, un lien gist est fourni comme référence
  • Si l’on ne regarde que les résultats de benchmark, les modèles Magistral Small et Medium semblent en retrait sur tous les tests one-shot face à la version la plus récente de DeepSeek-R1. L’article ne mentionne même pas le dernier DeepSeek-R1, et le coût est plus de deux fois supérieur, ce qui donne l’impression que l’entreprise considérée comme le meilleur acteur européen de l’IA peine aujourd’hui à suivre la tendance technologique
    • Comme le premier DeepSeek R1 avait livré des performances énormes avec très peu de calcul, il est surprenant que le nouveau R1 n’écrase pas o3, 2.5 Pro et les autres sur tous les benchmarks. Magistral Small (24B) obtient 70,7 % sur AIME 2024, contre 72,6 % pour R1 Distill (32B). Avec le majority voting@64, Magistral Small monte à 83,3 % et dépasse ainsi le R1 complet. L’avantage important, c’est qu’un modèle 24B peut tourner sur un GPU gaming classique, ce qui le rend bien plus accessible. Lien vers le modèle Distill
    • Dans le contexte actuel de compétition féroce entre modèles d’IA, choisir de ne pas dépenser des sommes astronomiques, même si l’on sort avec 6 à 12 mois de retard sur les modèles les plus récents, peut avoir un vrai sens d’un point de vue engineering. Bien sûr, on comprend la logique des clients qui ne veulent que « le meilleur » du point de vue des parts de marché, mais cela soulève aussi la question de l’importance réelle de parts de marché dans une activité qui perdrait éternellement de l’argent
    • Quand on regarde la structure des investisseurs de Mistral, l’entreprise n’est pas vraiment européenne en pratique, puisque le capital américain en est l’actionnaire principal. Plus de détails dans ce lien sur les investisseurs
    • Même si un acteur est un peu moins compétitif, il est stratégiquement indispensable que chaque région dispose de ses propres modèles qu’elle peut contrôler pour l’entraînement. Mais si l’écart technologique devient trop grand, il y a un risque que les utilisateurs les jugent simplement inutiles
    • On note que Mistral a mis en place un pipeline d’entraînement entièrement « indépendant ». Des concurrents comme Deepseek sont probablement entraînés sur des données issues de GPT-4, o1, etc.
  • Des notes sur l’usage direct des modèles Magistral via Ollama, l’API et le plugin llm-mistral ont été rassemblées dans ce lien de notes
    • On demande à Simon quelle est, en pratique, la différence entre « deux pélicans à vélo ». L’hypothèse est que la petite version a été exécutée en local et la grande, plus performante, via l’API
  • Témoignage d’usage réel : au moment où le modèle OCR de Mistral était très mis en avant, il fallait traiter en OCR un PDF de 600 pages. Le document était entièrement en texte monospace, mais 80 % du résultat OCR a été reconnu comme des images et n’a presque produit que du vide, à un niveau bien inférieur à tesseract. Un mois plus tard, après des résultats désastreux, la personne a en plus reçu la facture puis supprimé son compte. Le nouveau produit peut être meilleur que le précédent, mais l’enthousiasme pour le marketing excessif de Mistral est retombé
  • Confusion face au fait que la sélection des échantillons de benchmark est trop dispersée et limitée. Magistral Medium n’est comparé qu’à Deepseek V3, R1 et Mistral Medium 3, et l’on ne comprend pas pourquoi Magistral Small, Alibaba Qwen ou les versions mini de o3/o4 sont absents
  • Pour tester le raisonnement logique et les connaissances générales de niveau Wikipédia, quelqu’un a demandé à Mistral AI où se fait le contrôle d’immigration pour un citoyen brésilien allant de São Paulo à Paris avec une escale à Lisbonne. Mistral AI a répondu « à Paris seulement », puis a corrigé en « à Lisbonne » lorsqu’on lui a demandé de consulter l’article Wikipédia. Meta AI (Llama 4) a répondu qu’aucun des deux n’était nécessaire, montrant un manque de précision. La personne est curieuse d’avoir les réponses d’autres LLM
    • Selon un avis, la question elle-même est en fait piégeuse. En pratique, il faudrait sans doute un contrôle non seulement à Lisbonne, comme point d’entrée dans l’espace Schengen, mais aussi à São Paulo, comme point de sortie du Brésil/Mercosur
    • La réponse fournie par Gemini (2.5 Flash) est jugée impressionnante. En substance : les citoyens brésiliens sont exemptés de visa Schengen jusqu’à 90 jours. Le contrôle d’entrée se fait à Lisbonne, puis le vol vers Paris est traité comme un vol intérieur à l’espace Schengen, donc sans contrôle supplémentaire à Paris. Le système ETIAS doit être introduit en 2026, mais il s’agit d’une autorisation préalable de voyage, sans incidence sur le lieu du contrôle
    • Il est relevé que même la personne qui pose la question n’est pas totalement sûre de la réponse, et que ce type de test est intéressant car il permet de comparer à quel point les LLM répondent de manière convaincante
    • On laisse aussi ouverte la possibilité que Llama 4 ait en fait raison, en raison d’un accord spécial d’exemption de visa entre le Brésil et le Portugal
  • J’aimerais que Qwen3 apparaisse dans le graphique de benchmark. Même Qwen3-4B atteint presque le niveau de Magistral-22B, et Qwen3-30B-A3B donne des résultats nettement supérieurs
    • Le modèle 30-A3B est vraiment remarquable. En le faisant tourner en local sans coût d’API, il surpasse même des modèles fermés d’il y a un ou deux ans. Il est particulièrement mieux noté que gpt-4o pour les tâches de programmation
    • Quelqu’un se demande s’il existe un site automatisé pour comparer les benchmarks de différents modèles. Cette personne a fait ses propres tests et constate que Qwen3-30B-A3B reste le meilleur dans des conditions similaires de paramètres et de mémoire
    • Qwen3 est, jusqu’à présent, le modèle de raisonnement le plus impressionnant qu’elle ait évalué
    • Mistral a toujours eu peu d’utilité concrète parce que d’autres modèles faisaient mieux. Le seul point qui lui donne du sens, c’est son origine européenne. Que les performances soient là ou non, le nom de Mistral continuera probablement à circuler
  • Petite anecdote amusante sur l’étymologie. « mistral » et « magistral » viennent tous deux de l’idée de « masterly » au sens de maîtrise ou de virtuosité. Mistral vient à l’origine de l’occitan et, en anglais, désigne surtout aujourd’hui un vent méditerranéen. Magistral est la forme adjectivale de « magister ». En trouvant d’autres mots liés et en réservant les domaines correspondants, il y aurait peut-être une opportunité commerciale
  • On se demande combien il existe encore de modèles de reasoning open weight. Quelqu’un imagine la possibilité de faire tourner plusieurs modèles sur un même problème en parallèle. Il trouve aussi intéressant que la version Small soit publiée tandis que la version Medium reste un service payant. Il se demande même si l’on pourrait relier plusieurs exécutions de Small en chaîne pour reproduire une sorte de Medium
    • Qwen 3, DeepSeek R1 et Phi-4 Reasoning sont considérés comme les meilleurs modèles de reasoning open weight du moment
    • En pratique, il n’y a surtout que la famille DeepSeek, mais avec les modèles distillés il devient possible de les faire tourner sur du matériel grand public
  • On s’interroge sur le fait que les slogans marketing utilisent de manière excessive les tirets demi-cadratins, et si cela reflète aussi le style des textes générés par le modèle. Si c’est le cas, il faudrait améliorer cela
    • Parmi les formulations réelles, Magistral est présenté comme un excellent compagnon pour les travaux créatifs et comme capable, si besoin, de produire un texte « étrangement singulier »
    • Il est mentionné qu’on compte 49 tirets demi-cadratins pour 59 virgules, soit un ratio inhabituellement élevé
    • L’analyse conclut qu’il s’agit plutôt du style marketing de Mistral, car on n’observe pas la même proportion de tirets demi-cadratins dans les sorties réelles du modèle
    • Quelqu’un raconte qu’avec LibreOffice, taper - puis espace le transforme souvent en tiret demi-cadratin, et qu’il corrige volontairement cela pour éviter d’être mal jugé
    • Remarque humoristique : dans le milieu juridique, il existe au contraire une vraie affection pour le tiret demi-cadratin