MAI-Code-1-Flash
(microsoft.ai)- MAI-Code-1-Flash est le nouveau modèle de codage de Microsoft, conçu pour offrir une assistance de codage rapide et efficace dans les workflows quotidiens des développeurs, et il est en cours de déploiement pour les utilisateurs individuels de GitHub Copilot dans VS Code
- Microsoft a entraîné ce modèle directement dans le harnais GitHub Copilot, afin qu’il interagisse mieux avec les outils et systèmes des environnements de développement réels
- Grâce au contrôle adaptatif de la longueur des réponses, il répond brièvement aux demandes simples et consacre davantage de budget de raisonnement aux tâches complexes, résolvant des problèmes plus difficiles avec jusqu’à 60 % de tokens en moins {p:60}
- Dans l’évaluation du harnais de production de Microsoft, il a affiché un taux de réussite supérieur à Claude Haiku 4.5 sur les quatre benchmarks clés de codage, avec une avance de 16 points sur SWE-Bench Pro, 51,2 % contre 35,2 %
- Dans un benchmark distinct de raisonnement adversarial, il a enregistré une précision ajustée de 85,8 % sur 186 questions et 34 catégories, mais des catégories adversariales clés comme l’Einstellung trap restent sous les 50 % de précision, laissant une marge d’amélioration
Lancement et déploiement
- MAI-Code-1-Flash est le nouveau modèle de codage de Microsoft, créé pour fournir une assistance rapide et efficace aux développeurs au quotidien
- Il a été construit par Microsoft de bout en bout, à partir de données propres et correctement licenciées
- Il est en cours de déploiement pour les utilisateurs individuels de GitHub Copilot dans VS Code, où il est disponible sous le sélecteur de modèles et sous l’Auto picker par défaut
- Aucune configuration supplémentaire n’est nécessaire ; à mesure que le déploiement progresse, GitHub Copilot orientera les tâches vers MAI-Code-1-Flash via l’Auto picker ou l’affichera directement dans le sélecteur de modèles
- Les retours seront recueillis sur GitHub Community
Une conception centrée sur les workflows des développeurs
- MAI-Code-1-Flash n’a pas été conçu uniquement pour optimiser les benchmarks, mais en plaçant au centre les workflows de production que les développeurs utilisent chaque jour
- Il a été entraîné directement avec le harnais GitHub Copilot utilisé en production, afin d’apprendre à gérer les outils et systèmes environnants dans les tâches de codage de type agentique
- Pendant l’entraînement, les checkpoints ont été évalués sur des tâches clés d’ingénierie logicielle, des questions-réponses sur dépôts, du refactoring et des tâches basées sur la télémétrie adaptées de l’usage réel de GitHub Copilot
- L’objectif de conception est d’aligner entraînement, évaluation et environnement de production afin que les améliorations hors ligne se traduisent en qualité réelle pour les développeurs
Efficacité en tokens et mode de réponse
- Il a appris un contrôle adaptatif de la longueur des solutions afin d’ajuster la profondeur des réponses selon la difficulté de la tâche
- Il répond brièvement aux demandes simples et utilise davantage de budget de raisonnement pour les problèmes nécessitant une analyse plus poussée ou des modifications de code plus étendues
- Les développeurs peuvent ainsi commencer à voir plus rapidement des sorties utiles
- MAI-Code-1-Flash résout des problèmes plus difficiles avec jusqu’à 60 % de tokens en moins, avec pour objectif de réduire la latence, diminuer les coûts, améliorer le rendement par token et rendre les workflows conversationnels plus fluides
Résultats sur les benchmarks de codage
- Microsoft a évalué MAI-Code-1-Flash et Claude Haiku 4.5 avec le même harnais de production sur SWE-Bench Verified, SWE-Bench Pro, SWE-Bench Multilingual et Terminal Bench 2
- L’évaluation mesurait le taux de réussite des tâches et le nombre moyen de tokens de solution nécessaires pour terminer chaque tâche
- MAI-Code-1-Flash a obtenu un taux de réussite supérieur à celui de Claude Haiku 4.5 sur les quatre benchmarks clés de codage testés
- Sur la diversité des tâches réelles de SWE-Bench Pro, il mène de 16 points, 51,2 % contre 35,2 %
- Sur SWE-Bench Verified, il résout des problèmes plus difficiles avec jusqu’à 60 % de tokens en moins, montrant qu’il est possible d’améliorer à la fois la précision et l’efficacité
Suivi des consignes, raisonnement et limites
- MAI-Code-1-Flash a devancé Claude Haiku 4.5 sur tous les benchmarks du tableau, avec l’écart le plus important en suivi précis des consignes sur IF Bench, à +28,9
- Sur l’évaluation fondée sur une grille d’Advanced IF, l’écart est le plus faible, à +14,5
- Ses solides performances en suivi des consignes se prolongent aussi dans l’usage d’outils agentiques
- Il devance également Claude Haiku 4.5 sur les capacités de raisonnement clés en mathématiques, sciences et codage pour la génération visuelle
- Les benchmarks standard peuvent récompenser autant la mémorisation que le raisonnement ; ainsi, un modèle qui connaît le problème de Monty Hall peut donner la bonne réponse, mais échouer si les récompenses sont inversées
- Microsoft a créé un benchmark de 186 questions réparties en 34 catégories, centré sur des pièges adversariaux comme inverted classics, impossible tasks et underdetermined scenarios
- MAI-Code-1-Flash a globalement surpassé Claude Haiku 4.5 sur ce benchmark adversarial et a atteint une précision ajustée de 85,8 %
- Il a montré des performances particulièrement fortes en raisonnement, en suivi des consignes et en reconnaissance des problèmes impossibles, mais des catégories adversariales clés comme l’Einstellung trap restent sous les 50 % de précision, laissant encore une marge d’amélioration
1 commentaires
Commentaires sur Hacker News
D’après la model card, il s’agit d’un modèle de 137B paramètres au total
Les performances ne semblent pas si bonnes : MAI-Code-1-Flash (137B-A5B) atteint 51 % sur SWE-bench pro, Qwen3.6-35B-A3B atteint 49,5 % sur SWE-bench pro(https://huggingface.co/Qwen/Qwen3.6-35B-A3B)
Ils le comparent à Claude Haiku, mais Haiku n’est pas un très bon modèle, et il fait moins bien que de petits modèles open source qu’on peut faire tourner en local ou via API pour environ 10 % du coût
Je me demandais pourquoi Microsoft tardait autant à proposer ses propres modèles dans Copilot, et je me dis que cela faisait peut-être partie de leur contrat avec OpenAI
C’est un bon début et la concurrence est bienvenue, mais je n’ai presque jamais utilisé de petits modèles cloud comme Haiku 4.5 pour coder sérieusement
C’est mignon, mais en pratique ça me fait souvent perdre mon temps coûteux, et ce n’est certainement pas suffisant pour me faire revenir à GitHub Copilot, que j’ai résilié hier
Jusqu’à hier, GitHub Copilot restait compétitif côté prix, mais ils sont passés d’un abonnement fixe à un système d’allocation par token parmi les plus chers par requête. Pour rire un peu, il suffit de voir le subreddit en feu : https://www.reddit.com/r/GithubCopilot
Depuis, je suis passé à DeepSeek Flash high, quasiment gratuit et d’un niveau Sonnet+, et si j’ai besoin d’un modèle plus intelligent je prendrai sans doute Codex à 20 $/mois pour utiliser ce que je considère comme le meilleur disponible actuellement, GPT 5.5
Avec cette approche, j’utilise Haiku assez souvent pour les tâches du quotidien, et même les tâches très complexes qui prennent plusieurs heures peuvent être traitées avec de meilleurs résultats et un coût bien plus faible. L’orchestrateur parent structure efficacement le travail, contrôle la qualité et intègre ce qu’il faut, accomplissant ainsi une énorme quantité de travail dans une seule fenêtre de contexte
Je n’utilise pas Haiku directement, mais il représente souvent 30 à 40 % de l’usage en tokens sur les grosses tâches. Le temps d’exécution et le coût s’améliorent tous les deux, et Haiku est meilleur pour suivre des instructions et des plans littéraux sans les « réinterpréter », alors que les modèles de niveau Opus ont tendance à douter en permanence et à reposer des questions pendant leur raisonnement
Donc Haiku n’est pas une perte de temps, il m’en fait gagner énormément. En revanche, il m’a fallu d’abord construire un système d’orchestration, puis passer beaucoup de temps à l’itérer et l’améliorer. Fait intéressant, mon expérience comme directeur puis distinguished engineer m’a donné les outils pour faire tourner ça de manière stable jusqu’au bout, et des flux multi-agents de capacités variées ne sont pas si différents de la dynamique d’une organisation de 1 000 ingénieurs
Mon Qwen 3.6 27B auto-hébergé a systématiquement surclassé les deux en détection de bugs de sécurité, ce qui a été assez choquant. Je m’attendais à ce que Qwen soit au niveau de Haiku ou un peu en dessous, et clairement en dessous de Sonnet
DeepSeek et MiMo font bien mieux que Haiku et Sonnet, pour une fraction du coût, tout en se rapprochant du niveau Opus / GPT 5.5
À moins de les obtenir gratuitement ou dans un abonnement qu’on n’utilise de toute façon jamais à fond, il semble y avoir très peu de raisons d’utiliser Haiku ou Sonnet
Même avec une baisse de 90 % du prix de Copilot, je ne pense pas que j’y reviendrais
Il existe déjà beaucoup de modèles compétitifs comparables à Haiku, y compris des modèles bien plus petits et moins chers comme Qwen 3.6 35B-A3B. Ceux-là peuvent tourner sur un laptop, donc pas besoin de les louer à Microsoft
J’ai été choqué par la nouvelle facture Copilot, mais cela restera peut-être une option pour ceux qui veulent rester dans l’écosystème ; pour la plupart des gens, les meilleures alternatives ne manquent pas
Avoir simplement ChatGPT Premium suffit déjà, et même si on se heurte régulièrement aux limites d’utilisation, on peut faire la plupart des tâches
Est-ce que quelqu’un utilise vraiment ces petits modèles pour coder ? Si oui, j’aimerais savoir comment.
En général, je fais tout avec Opus. Est-ce que l’idée est de confier la planification/conception/architecture à un modèle plus lourd, puis de déléguer les tâches structurées à ce genre de petit modèle ? J’aimerais bien avoir l’avis de gens qui ont testé les deux approches.
Malheureusement, la comparaison ne tient pas encore.
Avec Opus, on peut lui faire confiance pour travailler sur la conception, proposer une architecture et modifier du code, même dans une base de code complexe.
Les petits modèles donnent plutôt l’impression d’« essayer ». Ils peuvent convenir pour de petites tâches, mais sur des tâches complexes, il arrive souvent qu’ils créent plus de travail que de faire les choses soi-même.
J’aimerais que ce soit différent, et ça pourrait l’être d’ici 1 à 2 ans.
Dans claude code, il y a opusplan : en mode planification, il utilise Opus, puis passe sur Sonnet pour l’exécution.
https://code.claude.com/docs/en/model-config#opusplan-model-...
Édit : on peut aussi configurer planification sur Sonnet et exécution sur Haiku, ou toute autre combinaison souhaitée.
https://code.claude.com/docs/en/model-config#control-the-mod...
Pour des fonctionnalités simples, je ne fais pas de plan complet. J’écris un peu de code, puis je donne au modèle une courte instruction en une ligne sur ce qu’il doit faire. Parfois, j’ajoute des commentaires temporaires dans le code pour lui indiquer la direction.
En général, tant que les modifications restent dans un fichier ou un package, Haiku suit la demande et ne casse pas trop de choses. Avec le temps, j’ai aussi développé des compétences pour bien le guider. Pendant les quelques mois où j’ai utilisé GitHub Copilot, il m’est même arrivé de dépenser en catastrophe les crédits restants en fin de mois.
Même la simple complétion de code par IA peut parfois être très correcte. Il suffit d’écrire dans un commentaire temporaire ce que le code doit faire, puis d’appuyer sur Tab-Tab-Tab pour voir la fonction entière se compléter.
Les gens ont tendance à aller vers des modèles plus avancés en pensant qu’ils casseront moins de choses, mais si on comprend vraiment le code, il est souvent plus facile de travailler de façon interactive avec un modèle plus modeste.
Je définis le chat principal sur Opus comme « orchestrateur », je fixe l’objectif, puis je lui fais enchaîner les sous-agents suivants jusqu’à l’atteindre :
Répéter : continuer jusqu’à épuisement du budget de tokens de la session orchestratrice. On peut le fixer à une valeur comme 1M.
La logique de base consiste à garder chaque étape à une taille gérable afin d’augmenter le respect des instructions et de réduire les coûts. Les tokens mis en cache coûtent aussi de l’argent. Comme les tokens de prompt sont bien moins chers que les tokens générés, on économise beaucoup en faisant surtout relire par Opus plutôt qu’en le laissant piloter directement.
L’étape d’auto-amélioration est très coûteuse, mais les améliorations s’accumulent. Si on fait tourner un travail sur plusieurs jours ou semaines, ne pas la faire coûte bien plus cher.
Édit : je fais ça dans Claude Code avec les modèles Anthropic, et aussi avec des modèles de la famille Qwen pour un usage hors ligne.
Ce modèle a un faible taux d’hallucination, donc il est bien adapté aux tâches d’exploration, et j’imagine que le meilleur usage du modèle présenté ici sera similaire. Beaucoup de tâches commencent par lancer plusieurs agents d’exploration avant la planification ou la modification, puis se terminent ensuite avec seulement quelques appels d’outils, ce qui entraîne aussi une forte consommation de tokens.
On compare ce modèle à Haiku 4.5.
Ni à Opus ni à Sonnet, mais à Haiku, le plus petit modèle d’Anthropic — et en plus à une version vieille de trois générations.
Pourquoi est-ce que tout le monde réimplémente le défilement de fenêtre de façon aussi bancale ?
C’est vraiment étrange de voir des benchmarks toujours aussi faibles alors que le modèle est présenté comme révolutionnaire.
Si on dit que ses faibles capacités de coding ne sont pas un problème, il faut aussi regarder ensemble la hausse du prix au token et le réglage comme modèle « généraliste ».
Pourquoi ne pas le vendre comme agent de mathématiques ? Pourquoi est-ce à moi de configurer 4 agents pour qu’ils vérifient le travail les uns des autres ?
Obtenir ce niveau de score avec 5B paramètres, c’est déjà plutôt bien, et jusqu’à récemment ça aurait semblé presque incroyable.
Les petits modèles vont continuer à s’améliorer, et je pense que les modèles cloud de pointe vont aussi rétrécir.
C’est encore une raison de penser que l’actuelle expansion massive des infrastructures finira par ressembler au chemin de fer.
Le billet de blog de présentation contient bien plus d’informations.
https://microsoft.ai/news/introducingmai-code-1-flash/
Et il y a aussi une model card.
https://microsoft.ai/pdf/MAI-Code-1-Flash-Model-Card.PDF
Le « 5B actifs » du titre semble venir d’une annonce plus large portant sur 7 modèles MAI.
https://microsoft.ai/news/building-a-hillclimbing-machine-la...
Il a fallu se rappeler à quoi Haiku était censé servir au départ
Anthropic n’a pas vraiment beaucoup poussé le marketing de Haiku récemment
Si on a besoin d’un modèle léger, on prend Sonnet. Avec le forfait Max, c’est presque gratuit et assez rapide. Dans le coding général, on voit mal où Haiku trouverait vraiment sa place
Haiku semble être un modèle à utiliser quand on a besoin de résumé/classification à grande échelle
Le fait que Microsoft ait pris Haiku comme point de référence place la barre assez bas
J’aimerais qu’ils testent le site sur Safari
Presque tous les utilisateurs iOS utilisent Safari par défaut, et l’expérience desktop ressemble aussi pas mal à celle du mobile, donc c’est facile à tester
Cet effet de scroll saccade complètement dans mon environnement. Je comprends que ça fonctionne bien sur Chrome/Edge
Si c’était sorti ne serait-ce qu’hier, on aurait peut-être évité que la sélection automatique de modèle de Copilot utilise un modèle 9x plus cher et consume discrètement le quota mensuel en l’espace d’un après-midi