2 points par GN⁺ 2 시간 전 | 1 commentaires | Partager sur WhatsApp
  • MAI-Code-1-Flash est le nouveau modèle de codage de Microsoft, conçu pour offrir une assistance de codage rapide et efficace dans les workflows quotidiens des développeurs, et il est en cours de déploiement pour les utilisateurs individuels de GitHub Copilot dans VS Code
  • Microsoft a entraîné ce modèle directement dans le harnais GitHub Copilot, afin qu’il interagisse mieux avec les outils et systèmes des environnements de développement réels
  • Grâce au contrôle adaptatif de la longueur des réponses, il répond brièvement aux demandes simples et consacre davantage de budget de raisonnement aux tâches complexes, résolvant des problèmes plus difficiles avec jusqu’à 60 % de tokens en moins {p:60}
  • Dans l’évaluation du harnais de production de Microsoft, il a affiché un taux de réussite supérieur à Claude Haiku 4.5 sur les quatre benchmarks clés de codage, avec une avance de 16 points sur SWE-Bench Pro, 51,2 % contre 35,2 %
  • Dans un benchmark distinct de raisonnement adversarial, il a enregistré une précision ajustée de 85,8 % sur 186 questions et 34 catégories, mais des catégories adversariales clés comme l’Einstellung trap restent sous les 50 % de précision, laissant une marge d’amélioration

Lancement et déploiement

  • MAI-Code-1-Flash est le nouveau modèle de codage de Microsoft, créé pour fournir une assistance rapide et efficace aux développeurs au quotidien
  • Il a été construit par Microsoft de bout en bout, à partir de données propres et correctement licenciées
  • Il est en cours de déploiement pour les utilisateurs individuels de GitHub Copilot dans VS Code, où il est disponible sous le sélecteur de modèles et sous l’Auto picker par défaut
  • Aucune configuration supplémentaire n’est nécessaire ; à mesure que le déploiement progresse, GitHub Copilot orientera les tâches vers MAI-Code-1-Flash via l’Auto picker ou l’affichera directement dans le sélecteur de modèles
  • Les retours seront recueillis sur GitHub Community

Une conception centrée sur les workflows des développeurs

  • MAI-Code-1-Flash n’a pas été conçu uniquement pour optimiser les benchmarks, mais en plaçant au centre les workflows de production que les développeurs utilisent chaque jour
  • Il a été entraîné directement avec le harnais GitHub Copilot utilisé en production, afin d’apprendre à gérer les outils et systèmes environnants dans les tâches de codage de type agentique
  • Pendant l’entraînement, les checkpoints ont été évalués sur des tâches clés d’ingénierie logicielle, des questions-réponses sur dépôts, du refactoring et des tâches basées sur la télémétrie adaptées de l’usage réel de GitHub Copilot
  • L’objectif de conception est d’aligner entraînement, évaluation et environnement de production afin que les améliorations hors ligne se traduisent en qualité réelle pour les développeurs

Efficacité en tokens et mode de réponse

  • Il a appris un contrôle adaptatif de la longueur des solutions afin d’ajuster la profondeur des réponses selon la difficulté de la tâche
  • Il répond brièvement aux demandes simples et utilise davantage de budget de raisonnement pour les problèmes nécessitant une analyse plus poussée ou des modifications de code plus étendues
  • Les développeurs peuvent ainsi commencer à voir plus rapidement des sorties utiles
  • MAI-Code-1-Flash résout des problèmes plus difficiles avec jusqu’à 60 % de tokens en moins, avec pour objectif de réduire la latence, diminuer les coûts, améliorer le rendement par token et rendre les workflows conversationnels plus fluides

Résultats sur les benchmarks de codage

  • Microsoft a évalué MAI-Code-1-Flash et Claude Haiku 4.5 avec le même harnais de production sur SWE-Bench Verified, SWE-Bench Pro, SWE-Bench Multilingual et Terminal Bench 2
  • L’évaluation mesurait le taux de réussite des tâches et le nombre moyen de tokens de solution nécessaires pour terminer chaque tâche
  • MAI-Code-1-Flash a obtenu un taux de réussite supérieur à celui de Claude Haiku 4.5 sur les quatre benchmarks clés de codage testés
  • Sur la diversité des tâches réelles de SWE-Bench Pro, il mène de 16 points, 51,2 % contre 35,2 %
  • Sur SWE-Bench Verified, il résout des problèmes plus difficiles avec jusqu’à 60 % de tokens en moins, montrant qu’il est possible d’améliorer à la fois la précision et l’efficacité

Suivi des consignes, raisonnement et limites

  • MAI-Code-1-Flash a devancé Claude Haiku 4.5 sur tous les benchmarks du tableau, avec l’écart le plus important en suivi précis des consignes sur IF Bench, à +28,9
  • Sur l’évaluation fondée sur une grille d’Advanced IF, l’écart est le plus faible, à +14,5
  • Ses solides performances en suivi des consignes se prolongent aussi dans l’usage d’outils agentiques
  • Il devance également Claude Haiku 4.5 sur les capacités de raisonnement clés en mathématiques, sciences et codage pour la génération visuelle
  • Les benchmarks standard peuvent récompenser autant la mémorisation que le raisonnement ; ainsi, un modèle qui connaît le problème de Monty Hall peut donner la bonne réponse, mais échouer si les récompenses sont inversées
  • Microsoft a créé un benchmark de 186 questions réparties en 34 catégories, centré sur des pièges adversariaux comme inverted classics, impossible tasks et underdetermined scenarios
  • MAI-Code-1-Flash a globalement surpassé Claude Haiku 4.5 sur ce benchmark adversarial et a atteint une précision ajustée de 85,8 %
  • Il a montré des performances particulièrement fortes en raisonnement, en suivi des consignes et en reconnaissance des problèmes impossibles, mais des catégories adversariales clés comme l’Einstellung trap restent sous les 50 % de précision, laissant encore une marge d’amélioration

1 commentaires

 
GN⁺ 2 시간 전
Commentaires sur Hacker News
  • D’après la model card, il s’agit d’un modèle de 137B paramètres au total
    Les performances ne semblent pas si bonnes : MAI-Code-1-Flash (137B-A5B) atteint 51 % sur SWE-bench pro, Qwen3.6-35B-A3B atteint 49,5 % sur SWE-bench pro(https://huggingface.co/Qwen/Qwen3.6-35B-A3B)
    Ils le comparent à Claude Haiku, mais Haiku n’est pas un très bon modèle, et il fait moins bien que de petits modèles open source qu’on peut faire tourner en local ou via API pour environ 10 % du coût

    • L’idée centrale semble être que ce modèle est un petit modèle en concurrence avec Haiku, et j’espère qu’ensuite sortira un concurrent de niveau « Sonnet », puis un concurrent de niveau Opus
      Je me demandais pourquoi Microsoft tardait autant à proposer ses propres modèles dans Copilot, et je me dis que cela faisait peut-être partie de leur contrat avec OpenAI
    • 137B-A5B, donc ce n’est pas un modèle de 5B paramètres comme le titre précédent le laissait entendre
  • C’est un bon début et la concurrence est bienvenue, mais je n’ai presque jamais utilisé de petits modèles cloud comme Haiku 4.5 pour coder sérieusement
    C’est mignon, mais en pratique ça me fait souvent perdre mon temps coûteux, et ce n’est certainement pas suffisant pour me faire revenir à GitHub Copilot, que j’ai résilié hier
    Jusqu’à hier, GitHub Copilot restait compétitif côté prix, mais ils sont passés d’un abonnement fixe à un système d’allocation par token parmi les plus chers par requête. Pour rire un peu, il suffit de voir le subreddit en feu : https://www.reddit.com/r/GithubCopilot
    Depuis, je suis passé à DeepSeek Flash high, quasiment gratuit et d’un niveau Sonnet+, et si j’ai besoin d’un modèle plus intelligent je prendrai sans doute Codex à 20 $/mois pour utiliser ce que je considère comme le meilleur disponible actuellement, GPT 5.5

    • J’organise le travail des grands modèles sous forme de graphe de tâches topologiquement trié, puis j’assigne de petits modèles à chaque tâche selon sa complexité, avant de laisser le grand modèle évaluer et corriger là où c’est nécessaire
      Avec cette approche, j’utilise Haiku assez souvent pour les tâches du quotidien, et même les tâches très complexes qui prennent plusieurs heures peuvent être traitées avec de meilleurs résultats et un coût bien plus faible. L’orchestrateur parent structure efficacement le travail, contrôle la qualité et intègre ce qu’il faut, accomplissant ainsi une énorme quantité de travail dans une seule fenêtre de contexte
      Je n’utilise pas Haiku directement, mais il représente souvent 30 à 40 % de l’usage en tokens sur les grosses tâches. Le temps d’exécution et le coût s’améliorent tous les deux, et Haiku est meilleur pour suivre des instructions et des plans littéraux sans les « réinterpréter », alors que les modèles de niveau Opus ont tendance à douter en permanence et à reposer des questions pendant leur raisonnement
      Donc Haiku n’est pas une perte de temps, il m’en fait gagner énormément. En revanche, il m’a fallu d’abord construire un système d’orchestration, puis passer beaucoup de temps à l’itérer et l’améliorer. Fait intéressant, mon expérience comme directeur puis distinguished engineer m’a donné les outils pour faire tourner ça de manière stable jusqu’au bout, et des flux multi-agents de capacités variées ne sont pas si différents de la dynamique d’une organisation de 1 000 ingénieurs
    • J’ai benchmarké plusieurs modèles pour trouver des failles de sécurité difficiles, et au passage ma confiance dans Haiku et Sonnet a fortement chuté
      Mon Qwen 3.6 27B auto-hébergé a systématiquement surclassé les deux en détection de bugs de sécurité, ce qui a été assez choquant. Je m’attendais à ce que Qwen soit au niveau de Haiku ou un peu en dessous, et clairement en dessous de Sonnet
      DeepSeek et MiMo font bien mieux que Haiku et Sonnet, pour une fraction du coût, tout en se rapprochant du niveau Opus / GPT 5.5
      À moins de les obtenir gratuitement ou dans un abonnement qu’on n’utilise de toute façon jamais à fond, il semble y avoir très peu de raisons d’utiliser Haiku ou Sonnet
    • Je suis dans presque exactement la même situation. DeepSeek refusait aussi beaucoup moins, et grâce à des valeurs plus chinoises, il y avait bien moins de friction sur la rétro-ingénierie, la recherche de fichiers sous copyright ou le travail sur du code source à la provenance douteuse
      Même avec une baisse de 90 % du prix de Copilot, je ne pense pas que j’y reviendrais
    • Ça semble se situer dans la gamme de Qwen 3.6, Gemma 4 et Nemotron 3 Super
      Il existe déjà beaucoup de modèles compétitifs comparables à Haiku, y compris des modèles bien plus petits et moins chers comme Qwen 3.6 35B-A3B. Ceux-là peuvent tourner sur un laptop, donc pas besoin de les louer à Microsoft
      J’ai été choqué par la nouvelle facture Copilot, mais cela restera peut-être une option pour ceux qui veulent rester dans l’écosystème ; pour la plupart des gens, les meilleures alternatives ne manquent pas
    • Le forfait ChatGPT à 20 $/mois avec Codex inclus offre un bon rapport qualité-prix
      Avoir simplement ChatGPT Premium suffit déjà, et même si on se heurte régulièrement aux limites d’utilisation, on peut faire la plupart des tâches
  • Est-ce que quelqu’un utilise vraiment ces petits modèles pour coder ? Si oui, j’aimerais savoir comment.
    En général, je fais tout avec Opus. Est-ce que l’idée est de confier la planification/conception/architecture à un modèle plus lourd, puis de déléguer les tâches structurées à ce genre de petit modèle ? J’aimerais bien avoir l’avis de gens qui ont testé les deux approches.

    • Au travail, j’utilise Opus 4.x, et chez moi ces modèles « petits » (20~80B, 3~4B actifs).
      Malheureusement, la comparaison ne tient pas encore.
      Avec Opus, on peut lui faire confiance pour travailler sur la conception, proposer une architecture et modifier du code, même dans une base de code complexe.
      Les petits modèles donnent plutôt l’impression d’« essayer ». Ils peuvent convenir pour de petites tâches, mais sur des tâches complexes, il arrive souvent qu’ils créent plus de travail que de faire les choses soi-même.
      J’aimerais que ce soit différent, et ça pourrait l’être d’ici 1 à 2 ans.
    • Faire la planification/conception/architecture avec un modèle plus lourd et confier les tâches structurées à un petit modèle, c’est comme ça que ça s’est toujours fait.
      Dans claude code, il y a opusplan : en mode planification, il utilise Opus, puis passe sur Sonnet pour l’exécution.
      https://code.claude.com/docs/en/model-config#opusplan-model-...
      Édit : on peut aussi configurer planification sur Sonnet et exécution sur Haiku, ou toute autre combinaison souhaitée.
      https://code.claude.com/docs/en/model-config#control-the-mod...
    • Haiku est assez bon marché sans trop tout casser, donc je l’utilisais pour du coding interactif sur des projets existants avec l’ancien plan Copilot.
      Pour des fonctionnalités simples, je ne fais pas de plan complet. J’écris un peu de code, puis je donne au modèle une courte instruction en une ligne sur ce qu’il doit faire. Parfois, j’ajoute des commentaires temporaires dans le code pour lui indiquer la direction.
      En général, tant que les modifications restent dans un fichier ou un package, Haiku suit la demande et ne casse pas trop de choses. Avec le temps, j’ai aussi développé des compétences pour bien le guider. Pendant les quelques mois où j’ai utilisé GitHub Copilot, il m’est même arrivé de dépenser en catastrophe les crédits restants en fin de mois.
      Même la simple complétion de code par IA peut parfois être très correcte. Il suffit d’écrire dans un commentaire temporaire ce que le code doit faire, puis d’appuyer sur Tab-Tab-Tab pour voir la fonction entière se compléter.
      Les gens ont tendance à aller vers des modèles plus avancés en pensant qu’ils casseront moins de choses, mais si on comprend vraiment le code, il est souvent plus facile de travailler de façon interactive avec un modèle plus modeste.
    • J’isole l’exécution des changements comme une responsabilité distincte.
      Je définis le chat principal sur Opus comme « orchestrateur », je fixe l’objectif, puis je lui fais enchaîner les sous-agents suivants jusqu’à l’atteindre :
      1. Exécution d’étape (Sonnet) : travaille pendant 30 minutes / 100k tokens selon les instructions de l’orchestrateur
      2. Revue (Opus) : vérifie minutieusement les erreurs et la fidélité aux instructions dans le travail de l’étape précédente, corrige, puis consigne dans un fichier les améliorations possibles du paramétrage des agents + des outils afin de réduire les erreurs et l’usage de tokens
      3. Auto-amélioration (Opus) : implémente les éléments d’auto-amélioration à fort impact qui ne nécessitent pas d’intervention utilisateur
        Répéter : continuer jusqu’à épuisement du budget de tokens de la session orchestratrice. On peut le fixer à une valeur comme 1M.
        La logique de base consiste à garder chaque étape à une taille gérable afin d’augmenter le respect des instructions et de réduire les coûts. Les tokens mis en cache coûtent aussi de l’argent. Comme les tokens de prompt sont bien moins chers que les tokens générés, on économise beaucoup en faisant surtout relire par Opus plutôt qu’en le laissant piloter directement.
        L’étape d’auto-amélioration est très coûteuse, mais les améliorations s’accumulent. Si on fait tourner un travail sur plusieurs jours ou semaines, ne pas la faire coûte bien plus cher.
        Édit : je fais ça dans Claude Code avec les modèles Anthropic, et aussi avec des modèles de la famille Qwen pour un usage hors ligne.
    • Claude Code lui-même lance beaucoup de sous-agents sur Haiku.
      Ce modèle a un faible taux d’hallucination, donc il est bien adapté aux tâches d’exploration, et j’imagine que le meilleur usage du modèle présenté ici sera similaire. Beaucoup de tâches commencent par lancer plusieurs agents d’exploration avant la planification ou la modification, puis se terminent ensuite avec seulement quelques appels d’outils, ce qui entraîne aussi une forte consommation de tokens.
  • On compare ce modèle à Haiku 4.5.
    Ni à Opus ni à Sonnet, mais à Haiku, le plus petit modèle d’Anthropic — et en plus à une version vieille de trois générations.

    • 4.5 est encore le modèle Haiku le plus récent.
  • Pourquoi est-ce que tout le monde réimplémente le défilement de fenêtre de façon aussi bancale ?

    • On dirait probablement du vibe coding. Moi, je bloque ça avec StopTheMadness.
    • Ça m’a sauté aux yeux immédiatement, donc j’ai fermé l’onglet direct.
  • C’est vraiment étrange de voir des benchmarks toujours aussi faibles alors que le modèle est présenté comme révolutionnaire.
    Si on dit que ses faibles capacités de coding ne sont pas un problème, il faut aussi regarder ensemble la hausse du prix au token et le réglage comme modèle « généraliste ».
    Pourquoi ne pas le vendre comme agent de mathématiques ? Pourquoi est-ce à moi de configurer 4 agents pour qu’ils vérifient le travail les uns des autres ?

    • Si j’ai bien compris, contrairement à d’autres modèles, les modèles MAI n’ont pas encore été fine-tunés sur des jeux de données synthétiques spécialement conçus pour faire monter les scores aux benchmarks.
    • Le point clé, c’est le rapport performance/prix.
      Obtenir ce niveau de score avec 5B paramètres, c’est déjà plutôt bien, et jusqu’à récemment ça aurait semblé presque incroyable.
      Les petits modèles vont continuer à s’améliorer, et je pense que les modèles cloud de pointe vont aussi rétrécir.
      C’est encore une raison de penser que l’actuelle expansion massive des infrastructures finira par ressembler au chemin de fer.
  • Le billet de blog de présentation contient bien plus d’informations.
    https://microsoft.ai/news/introducingmai-code-1-flash/
    Et il y a aussi une model card.
    https://microsoft.ai/pdf/MAI-Code-1-Flash-Model-Card.PDF
    Le « 5B actifs » du titre semble venir d’une annonce plus large portant sur 7 modèles MAI.
    https://microsoft.ai/news/building-a-hillclimbing-machine-la...

  • Il a fallu se rappeler à quoi Haiku était censé servir au départ
    Anthropic n’a pas vraiment beaucoup poussé le marketing de Haiku récemment
    Si on a besoin d’un modèle léger, on prend Sonnet. Avec le forfait Max, c’est presque gratuit et assez rapide. Dans le coding général, on voit mal où Haiku trouverait vraiment sa place
    Haiku semble être un modèle à utiliser quand on a besoin de résumé/classification à grande échelle
    Le fait que Microsoft ait pris Haiku comme point de référence place la barre assez bas

    • Dire que c’est « presque gratuit avec le forfait Max » est une contradiction assez drôle
  • J’aimerais qu’ils testent le site sur Safari
    Presque tous les utilisateurs iOS utilisent Safari par défaut, et l’expérience desktop ressemble aussi pas mal à celle du mobile, donc c’est facile à tester
    Cet effet de scroll saccade complètement dans mon environnement. Je comprends que ça fonctionne bien sur Chrome/Edge

    • Sur Firefox+macOS aussi, il y a clairement une forme de scroll hijacking, et la sensation est horrible
  • Si c’était sorti ne serait-ce qu’hier, on aurait peut-être évité que la sélection automatique de modèle de Copilot utilise un modèle 9x plus cher et consume discrètement le quota mensuel en l’espace d’un après-midi