20 points par GN⁺ 2026-02-20 | 2 commentaires | Partager sur WhatsApp
  • Une architecture sparse Mixture of Experts qui n’active que 11 milliards de paramètres sur 196 milliards, afin d’assurer une inférence rapide et des interactions en temps réel
  • Une vitesse de génération pouvant atteindre 350 tokens par seconde et une fenêtre de contexte de 256K
  • Avec SWE-bench Verified 74,4 % , le modèle affiche des performances stables sur les benchmarks de codage et d’agents, tout en pouvant aussi fonctionner en local (Mac Studio M4 Max, NVIDIA DGX Spark)
  • Grâce au raisonnement assisté par outils et à l’orchestration multi-agents, il démontre une forte fiabilité et une bonne capacité d’exécution dans des scénarios professionnels concrets, comme la finance, l’analyse de données ou l’automatisation de la recherche
  • Une méthode d’optimisation MIS-PO fondée sur l’apprentissage par renforcement garantit la stabilité du raisonnement à long terme, tout en offrant des capacités de raisonnement et d’action de niveau frontier à moindre coût que les modèles très haut de gamme

Vue d’ensemble du modèle et performances

  • Step 3.5 Flash est un foundation model open source qui combine inférence rapide et fonctions d’agent, avec un score moyen de 81,0 sur les benchmarks
    • Un score moyen supérieur à celui de grands modèles comme GLM-4.7 (78,5), DeepSeek V3.2 (77,3) et Kimi K2.5 (80,5)
  • Grâce à une architecture sparse MoE, seuls 11B paramètres sur 196B sont activés, ce qui permet des calculs efficaces et une réponse en temps réel
  • Basé sur MTP-3, il atteint 100 à 300 tok/s en usage général, et jusqu’à 350 tok/s pour les tâches de codage
  • Avec SWE-bench Verified 74,4 % et Terminal-Bench 2.0 51,0 % , il assure des performances stables sur les tâches de code et d’agents de longue durée
  • La fenêtre de contexte de 256K est implémentée avec une structure SWA 3:1, afin de préserver l’efficacité économique même sur de longs contextes

Cas d’usage réels et utilisation d’outils

  • Le raisonnement assisté par outils (tool-augmented reasoning) améliore les performances en mathématiques, en codage et en analyse de données
    • Avec l’intégration de l’exécution Python, le modèle obtient de meilleurs scores sur AIME 2025 (99,8), HMMT 2025 (98,0) et IMOAnswerBench (86,7), entre autres
  • Dans un scénario d’investissement boursier, il combine plus de 80 outils MCP pour automatiser la collecte de données, l’analyse et les alertes
  • L’Autonomous Business Intelligence Engine automatise le traitement de fichiers CSV jusqu’aux prévisions, et identifie un écart de qualité des données de 1,6×
  • Le Large-Scale Repository Architect analyse de vastes bases de code et génère un wiki spécialisé reliant les patterns d’architecture aux détails d’implémentation

Recherche et performances des agents

  • Sur le benchmark ResearchRubrics, il atteint 65,3 %, soit mieux que Gemini DeepResearch (63,7) et OpenAI DeepResearch (60,7)
    • Il exécute les étapes de planification, recherche, vérification et rédaction dans une boucle unique basée sur ReAct
  • Dans l’environnement Claude Code, il atteint 39,6 % sur un benchmark d’analyse de données, légèrement au-dessus de GPT-5.2 (39,3)
  • Grâce au Multi-Agent Framework, un Master Agent coordonne les agents de recherche, de vérification et de synthèse pour produire des résultats structurés
  • Avec la Cloud-Device Synergy, son intégration avec Step-GUI lui permet d’obtenir 57 points sur le benchmark AndroidDaily Hard, contre 40 points seul

Architecture et caractéristiques techniques

  • Le backbone Sparse MoE sépare la capacité globale (196B) du calcul par token (11B), afin d’optimiser le coût et la vitesse d’inférence
  • La structure Sliding-Window Attention + Full Attention (3:1) maintient l’efficacité lors du traitement de longs contextes
  • Le Head-wise Gated Attention contrôle dynamiquement le flux d’information et garantit la stabilité numérique
  • Un débit de décodage de 350 tok/s est atteint sur les GPU NVIDIA Hopper
  • Le modèle quantifié INT4 GGUF prend en charge l’inférence locale (20 tok/s, contexte 256K)

Framework d’apprentissage par renforcement

  • Introduction de Metropolis Independence Sampling Filtered Policy Optimization (MIS-PO)
    • Au lieu de l’échantillonnage par importance, un filtrage binaire élimine les échantillons instables
    • Le truncation-aware value bootstrapping et le routing confidence monitoring stabilisent le raisonnement à long terme
  • Cette architecture permet une auto-amélioration continue en mathématiques, en codage et dans l’usage d’outils de manière générale

Comparaison des benchmarks

  • Step 3.5 Flash affiche des performances de haut niveau bien équilibrées dans trois domaines : reasoning, coding et agentic
    • AIME 2025: 97.3 / HMMT 2025: 98.4 / LiveCodeBench-V6: 86.4
    • τ²-Bench: 88.2 / BrowseComp-ZH: 66.9 / ResearchRubrics: 65.3
  • Le coût de décodage est de 1.0x avec un contexte de 128K, ce qui est plus efficace que DeepSeek V3.2 (6.0x) et Kimi K2.5 (18.9x)

Limites et orientations futures

  • Efficacité token : à qualité égale, il nécessite des générations plus longues que Gemini 3.0 Pro
  • Intégration de l’expertise : des recherches sur la distillation on-policy sont en cours afin de combiner plus efficacement généralisme et spécialisation
  • Extension du RL agentique : l’application du RL doit être étendue à des tâches complexes de niveau professionnel et recherche
  • Stabilité opérationnelle : sur de longues conversations ou lors de changements de domaine, un risque de raisonnement répétitif et de sortie en langues mixtes subsiste

Déploiement et accessibilité

  • Intégré à la plateforme OpenClaw, il peut être utilisé via une installation simple et l’enregistrement du modèle
  • Accessible via une plateforme API (anglais/chinois) et des applications web et mobiles (iOS/Android)
  • Une communauté Discord fournit mises à jour et assistance

2 commentaires

 
sftblw 2026-02-20

Ce modèle envoie du lourd
Si vous avez la possibilité de le faire tourner avec llama.cpp, il faut appliquer séparément le prompt qui se trouve dans les commentaires du fil ci-dessous. Sinon, vous risquez d’avoir un problème où un </think> apparaît tout seul au milieu sans balise ouvrante <think>.
https://huggingface.co/stepfun-ai/Step-3.5-Flash-GGUF-Q4_K_S/…

llama-server \  
  옵션생략 \  
  --jinja \  
  --chat-template-file chemin/step3p5_flash_chat_template.jinja  
 
GN⁺ 2026-02-20
Avis sur Hacker News
  • Je pense que c’est l’une des sorties de LLM les plus sous-estimées de ces derniers mois
    Je l’ai testé en local avec la version quantifiée en 4 bits (Step-3.5-Flash-GGUF), et il était meilleur que Minimax 2.5 ou GLM-4.7 (GLM n’était dispo qu’en 2 bits)
    Les principales caractéristiques sont les suivantes

    • L’efficacité de contexte est très élevée. Sur un Mac de 128 Go, il est possible d’exécuter soit l’intégralité d’un contexte de 256k, soit deux flux de 128k en parallèle
    • Les performances sont aussi bonnes sur un M1 Ultra (36 t/s tg, 300 t/s pp), et la baisse de vitesse reste modérée même quand le contexte grossit
    • Il semble optimisé pour le agentic coding et entraîné pour être compatible avec Claude Code. Codex est la seule exception à cause de problèmes avec l’outil d’édition de patchs
      C’est le premier modèle local de la classe des 200B paramètres réellement utilisable dans un harness CLI. Je l’utilise avec pi.dev et c’est la meilleure expérience que j’ai eue jusqu’ici
      Côté inconvénients, il y a un bug de boucle de raisonnement infinie (issue associée)
      Il semble que StepFun soit aussi l’entreprise derrière ACEStep (un modèle de génération musicale), également mentionné dans la documentation ComfyUI
    • J’ai testé Qwen3 Coder Next avec OpenCode et ça a plutôt bien marché
      Il se trompe parfois dans les appels d’outils, mais avec le réglage temperature=1 recommandé par Qwen, il ne se bloque pas
      Nemotron 3 Nano manquait d’aisance avec les outils et avait tendance à n’utiliser presque que le shell tool
      Globalement, les modèles open weight orientés agent ont tendance à mal appeler les outils qu’ils connaissent peu
    • Je me demande si faire tourner des modèles OSS sur un M3 Ultra (512 Go de RAM) est plus économique qu’un abonnement à Claude ou Codex
      J’aimerais savoir si quelqu’un a déjà fait ce calcul
    • Je me demande si le problème de boucle de raisonnement infinie pourrait être résolu en changeant de moteur d’inférence
      À mon avis, c’est plutôt un problème qui nécessiterait de modifier les poids du modèle lui-même
    • Je me demande si quelqu’un l’a essayé en version MLX. En théorie ce serait plus rapide, mais j’hésite à télécharger encore plusieurs versions
    • gpt-oss 120b et 20b fonctionnaient aussi bien avec Codex
  • J’ai récemment trouvé le raisonnement derrière l’astuce « Walk or drive to the carwash » intéressant
    Liens associés : gist, conversation stepfun.ai

  • Il est annoncé à 51,0 % sur Terminal-Bench 2.0, mais je doute que cela garantisse vraiment une « capacité fiable à gérer des tâches longues »

    • Le chiffre de 51 % a peu de sens à lui seul. Ce genre de benchmark repose sur des scores absolus, donc 100 % ne signifie pas un niveau humain
      Si on regarde le leaderboard, le meilleur score est de 75 %, donc 51 % correspond à environ ⅔ du SOTA
    • Ce score est proche de Gemini 3 Flash, mais dans la pratique, il semble que la configuration de l’agent influence davantage le score que le modèle lui-même
    • TerminalBench, malgré son nom, n’a presque rien à voir avec le terminal et ressemble surtout à une série de tests aléatoires de syntaxe d’outils
      Le modèle a peut-être simplement mémorisé des flags de commande
  • Après test, les hallucinations étaient importantes. Même pour une question simple comme « trouve-moi un deck champion Pokémon », les réponses manquaient de précision
    Opus 4.6, Deepseek et Kimi ont fonctionné comme attendu

    • Je pense qu’il vaut mieux utiliser un modèle de taille moyenne pour l’exécution
    • Des modèles comme Gemini exploitent probablement très activement la recherche, ce qui pourrait expliquer pourquoi ils étaient plus rapides et plus précis
  • Il s’agit d’un modèle récemment publié utilisant une architecture Mixture of Experts (MoE), avec seulement 11B activés par token sur 196B
    Il surpasse Kimi K2.5 et GLM 4.7 sur davantage de benchmarks
    Il peut tourner sur une machine de 128 Go en version quantifiée 4 bits (lien de référence)

    • Je doute que l’avantage sur les benchmarks ait une vraie signification. J’accorde plus d’importance au suivi des consignes, au raisonnement en long contexte et à l’absence d’hallucinations
    • Je me demande lequel de Q4_K_S(116GB), IQ4_NL(112GB) et Q4_0(113GB) est le meilleur
      Voir la page du modèle
  • Les modèles récents affichent de bons scores sur les benchmarks, mais au prix d’une explosion de la consommation de tokens
    Pour une vraie avancée, il faudra résoudre le problème de l’efficacité énergétique

    • Ce n’est pas seulement le nombre de tokens qui compte, mais aussi l’efficacité énergétique par token (tokens/joule)
      L’usage efficace d’une architecture MoE a un impact à la fois sur les tokens/joule et sur les tokens/sec
  • SWE-bench Verified est correct, mais il faudrait un meilleur benchmark SWE
    Construire un benchmark équitable implique des coûts d’exécution continus élevés
    Le concept de « benchmark live » est bon, mais il ne reflète pas suffisamment les modèles les plus récents

  • Je pense qu’un indicateur plus important que le nombre de paramètres est le tokens per dollar/sec
    Parce que les meilleurs modèles ne prennent pas en charge l’inférence locale

    • Pour un modèle open source, le nombre de paramètres reste important pour ceux qui envisagent l’auto-hébergement
    • Le nombre de paramètres demeure un indicateur approximatif des performances du modèle
      Par exemple, Qwen3 0.6b est excellent en tok/dollar, mais insuffisant pour la plupart des usages
    • Ce modèle est intéressant parce qu’il peut être exécuté localement sur une machine à moins de 3 000 $
  • Lors d’un test simple, j’ai fait quelques observations

    1. La trace de sortie était très verbeuse, avec des paragraphes courts dans un style LinkedIn
    2. La vitesse de sortie des tokens de la version hébergée était très élevée
    3. Le respect des consignes et la qualité de sortie étaient supérieurs à ceux de grands modèles comme Opus 4.5
  • Le graphique avait l’axe des x inversé, ce qui prêtait à confusion

    • J’ai pensé la même chose. Je ne sais pas pourquoi ils ont fait ça
    • On dirait sans doute qu’ils voulaient rendre le graphique plus flatteur, mais en réalité ce n’est pas le cas