Step 3.5 Flash – un LLM open source conçu pour l’inférence rapide

(static.stepfun.com)

20 points par GN⁺ 2026-02-20 | 2 commentaires | Partager sur WhatsApp

Une architecture sparse Mixture of Experts qui n’active que 11 milliards de paramètres sur 196 milliards, afin d’assurer une inférence rapide et des interactions en temps réel
Une vitesse de génération pouvant atteindre 350 tokens par seconde et une fenêtre de contexte de 256K
Avec SWE-bench Verified 74,4 % , le modèle affiche des performances stables sur les benchmarks de codage et d’agents, tout en pouvant aussi fonctionner en local (Mac Studio M4 Max, NVIDIA DGX Spark)
Grâce au raisonnement assisté par outils et à l’orchestration multi-agents, il démontre une forte fiabilité et une bonne capacité d’exécution dans des scénarios professionnels concrets, comme la finance, l’analyse de données ou l’automatisation de la recherche
Une méthode d’optimisation MIS-PO fondée sur l’apprentissage par renforcement garantit la stabilité du raisonnement à long terme, tout en offrant des capacités de raisonnement et d’action de niveau frontier à moindre coût que les modèles très haut de gamme

Vue d’ensemble du modèle et performances

Step 3.5 Flash est un foundation model open source qui combine inférence rapide et fonctions d’agent, avec un score moyen de 81,0 sur les benchmarks
- Un score moyen supérieur à celui de grands modèles comme GLM-4.7 (78,5), DeepSeek V3.2 (77,3) et Kimi K2.5 (80,5)
Grâce à une architecture sparse MoE, seuls 11B paramètres sur 196B sont activés, ce qui permet des calculs efficaces et une réponse en temps réel
Basé sur MTP-3, il atteint 100 à 300 tok/s en usage général, et jusqu’à 350 tok/s pour les tâches de codage
Avec SWE-bench Verified 74,4 % et Terminal-Bench 2.0 51,0 % , il assure des performances stables sur les tâches de code et d’agents de longue durée
La fenêtre de contexte de 256K est implémentée avec une structure SWA 3:1, afin de préserver l’efficacité économique même sur de longs contextes

Cas d’usage réels et utilisation d’outils

Le raisonnement assisté par outils (tool-augmented reasoning) améliore les performances en mathématiques, en codage et en analyse de données
- Avec l’intégration de l’exécution Python, le modèle obtient de meilleurs scores sur AIME 2025 (99,8), HMMT 2025 (98,0) et IMOAnswerBench (86,7), entre autres
Dans un scénario d’investissement boursier, il combine plus de 80 outils MCP pour automatiser la collecte de données, l’analyse et les alertes
L’Autonomous Business Intelligence Engine automatise le traitement de fichiers CSV jusqu’aux prévisions, et identifie un écart de qualité des données de 1,6×
Le Large-Scale Repository Architect analyse de vastes bases de code et génère un wiki spécialisé reliant les patterns d’architecture aux détails d’implémentation

Recherche et performances des agents

Sur le benchmark ResearchRubrics, il atteint 65,3 %, soit mieux que Gemini DeepResearch (63,7) et OpenAI DeepResearch (60,7)
- Il exécute les étapes de planification, recherche, vérification et rédaction dans une boucle unique basée sur ReAct
Dans l’environnement Claude Code, il atteint 39,6 % sur un benchmark d’analyse de données, légèrement au-dessus de GPT-5.2 (39,3)
Grâce au Multi-Agent Framework, un Master Agent coordonne les agents de recherche, de vérification et de synthèse pour produire des résultats structurés
Avec la Cloud-Device Synergy, son intégration avec Step-GUI lui permet d’obtenir 57 points sur le benchmark AndroidDaily Hard, contre 40 points seul

Architecture et caractéristiques techniques

Le backbone Sparse MoE sépare la capacité globale (196B) du calcul par token (11B), afin d’optimiser le coût et la vitesse d’inférence
La structure Sliding-Window Attention + Full Attention (3:1) maintient l’efficacité lors du traitement de longs contextes
Le Head-wise Gated Attention contrôle dynamiquement le flux d’information et garantit la stabilité numérique
Un débit de décodage de 350 tok/s est atteint sur les GPU NVIDIA Hopper
Le modèle quantifié INT4 GGUF prend en charge l’inférence locale (20 tok/s, contexte 256K)

Framework d’apprentissage par renforcement

Introduction de Metropolis Independence Sampling Filtered Policy Optimization (MIS-PO)
- Au lieu de l’échantillonnage par importance, un filtrage binaire élimine les échantillons instables
- Le truncation-aware value bootstrapping et le routing confidence monitoring stabilisent le raisonnement à long terme
Cette architecture permet une auto-amélioration continue en mathématiques, en codage et dans l’usage d’outils de manière générale

Comparaison des benchmarks

Step 3.5 Flash affiche des performances de haut niveau bien équilibrées dans trois domaines : reasoning, coding et agentic
- AIME 2025: 97.3 / HMMT 2025: 98.4 / LiveCodeBench-V6: 86.4
- τ²-Bench: 88.2 / BrowseComp-ZH: 66.9 / ResearchRubrics: 65.3
Le coût de décodage est de 1.0x avec un contexte de 128K, ce qui est plus efficace que DeepSeek V3.2 (6.0x) et Kimi K2.5 (18.9x)

Limites et orientations futures

Efficacité token : à qualité égale, il nécessite des générations plus longues que Gemini 3.0 Pro
Intégration de l’expertise : des recherches sur la distillation on-policy sont en cours afin de combiner plus efficacement généralisme et spécialisation
Extension du RL agentique : l’application du RL doit être étendue à des tâches complexes de niveau professionnel et recherche
Stabilité opérationnelle : sur de longues conversations ou lors de changements de domaine, un risque de raisonnement répétitif et de sortie en langues mixtes subsiste

Déploiement et accessibilité

Intégré à la plateforme OpenClaw, il peut être utilisé via une installation simple et l’enregistrement du modèle
Accessible via une plateforme API (anglais/chinois) et des applications web et mobiles (iOS/Android)
Une communauté Discord fournit mises à jour et assistance

2 commentaires

sftblw 2026-02-20

Ce modèle envoie du lourd
Si vous avez la possibilité de le faire tourner avec llama.cpp, il faut appliquer séparément le prompt qui se trouve dans les commentaires du fil ci-dessous. Sinon, vous risquez d’avoir un problème où un </think> apparaît tout seul au milieu sans balise ouvrante <think>.
https://huggingface.co/stepfun-ai/Step-3.5-Flash-GGUF-Q4_K_S/…

llama-server \  
  옵션생략 \  
  --jinja \  
  --chat-template-file chemin/step3p5_flash_chat_template.jinja

GN⁺ 2026-02-20

Avis sur Hacker News

Je pense que c’est l’une des sorties de LLM les plus sous-estimées de ces derniers mois
Je l’ai testé en local avec la version quantifiée en 4 bits (Step-3.5-Flash-GGUF), et il était meilleur que Minimax 2.5 ou GLM-4.7 (GLM n’était dispo qu’en 2 bits)
Les principales caractéristiques sont les suivantes
- L’efficacité de contexte est très élevée. Sur un Mac de 128 Go, il est possible d’exécuter soit l’intégralité d’un contexte de 256k, soit deux flux de 128k en parallèle
- Les performances sont aussi bonnes sur un M1 Ultra (36 t/s tg, 300 t/s pp), et la baisse de vitesse reste modérée même quand le contexte grossit
- Il semble optimisé pour le agentic coding et entraîné pour être compatible avec Claude Code. Codex est la seule exception à cause de problèmes avec l’outil d’édition de patchs
  C’est le premier modèle local de la classe des 200B paramètres réellement utilisable dans un harness CLI. Je l’utilise avec pi.dev et c’est la meilleure expérience que j’ai eue jusqu’ici
  Côté inconvénients, il y a un bug de boucle de raisonnement infinie (issue associée)
  Il semble que StepFun soit aussi l’entreprise derrière ACEStep (un modèle de génération musicale), également mentionné dans la documentation ComfyUI
- J’ai testé Qwen3 Coder Next avec OpenCode et ça a plutôt bien marché
  Il se trompe parfois dans les appels d’outils, mais avec le réglage temperature=1 recommandé par Qwen, il ne se bloque pas
  Nemotron 3 Nano manquait d’aisance avec les outils et avait tendance à n’utiliser presque que le shell tool
  Globalement, les modèles open weight orientés agent ont tendance à mal appeler les outils qu’ils connaissent peu
- Je me demande si faire tourner des modèles OSS sur un M3 Ultra (512 Go de RAM) est plus économique qu’un abonnement à Claude ou Codex
  J’aimerais savoir si quelqu’un a déjà fait ce calcul
- Je me demande si le problème de boucle de raisonnement infinie pourrait être résolu en changeant de moteur d’inférence
  À mon avis, c’est plutôt un problème qui nécessiterait de modifier les poids du modèle lui-même
- Je me demande si quelqu’un l’a essayé en version MLX. En théorie ce serait plus rapide, mais j’hésite à télécharger encore plusieurs versions
- gpt-oss 120b et 20b fonctionnaient aussi bien avec Codex
J’ai récemment trouvé le raisonnement derrière l’astuce « Walk or drive to the carwash » intéressant
Liens associés : gist, conversation stepfun.ai
Il est annoncé à 51,0 % sur Terminal-Bench 2.0, mais je doute que cela garantisse vraiment une « capacité fiable à gérer des tâches longues »
- Le chiffre de 51 % a peu de sens à lui seul. Ce genre de benchmark repose sur des scores absolus, donc 100 % ne signifie pas un niveau humain
  Si on regarde le leaderboard, le meilleur score est de 75 %, donc 51 % correspond à environ ⅔ du SOTA
- Ce score est proche de Gemini 3 Flash, mais dans la pratique, il semble que la configuration de l’agent influence davantage le score que le modèle lui-même
- TerminalBench, malgré son nom, n’a presque rien à voir avec le terminal et ressemble surtout à une série de tests aléatoires de syntaxe d’outils
  Le modèle a peut-être simplement mémorisé des flags de commande
Après test, les hallucinations étaient importantes. Même pour une question simple comme « trouve-moi un deck champion Pokémon », les réponses manquaient de précision
Opus 4.6, Deepseek et Kimi ont fonctionné comme attendu
- Je pense qu’il vaut mieux utiliser un modèle de taille moyenne pour l’exécution
- Des modèles comme Gemini exploitent probablement très activement la recherche, ce qui pourrait expliquer pourquoi ils étaient plus rapides et plus précis
Il s’agit d’un modèle récemment publié utilisant une architecture Mixture of Experts (MoE), avec seulement 11B activés par token sur 196B
Il surpasse Kimi K2.5 et GLM 4.7 sur davantage de benchmarks
Il peut tourner sur une machine de 128 Go en version quantifiée 4 bits (lien de référence)
- Je doute que l’avantage sur les benchmarks ait une vraie signification. J’accorde plus d’importance au suivi des consignes, au raisonnement en long contexte et à l’absence d’hallucinations
- Je me demande lequel de Q4_K_S(116GB), IQ4_NL(112GB) et Q4_0(113GB) est le meilleur
  Voir la page du modèle
Les modèles récents affichent de bons scores sur les benchmarks, mais au prix d’une explosion de la consommation de tokens
Pour une vraie avancée, il faudra résoudre le problème de l’efficacité énergétique
- Ce n’est pas seulement le nombre de tokens qui compte, mais aussi l’efficacité énergétique par token (tokens/joule)
  L’usage efficace d’une architecture MoE a un impact à la fois sur les tokens/joule et sur les tokens/sec
SWE-bench Verified est correct, mais il faudrait un meilleur benchmark SWE
Construire un benchmark équitable implique des coûts d’exécution continus élevés
Le concept de « benchmark live » est bon, mais il ne reflète pas suffisamment les modèles les plus récents
- Il y a eu une proposition de contribuer au développement de Terminal Bench 3.0
  Lien vers le document
Je pense qu’un indicateur plus important que le nombre de paramètres est le tokens per dollar/sec
Parce que les meilleurs modèles ne prennent pas en charge l’inférence locale
- Pour un modèle open source, le nombre de paramètres reste important pour ceux qui envisagent l’auto-hébergement
- Le nombre de paramètres demeure un indicateur approximatif des performances du modèle
  Par exemple, Qwen3 0.6b est excellent en tok/dollar, mais insuffisant pour la plupart des usages
- Ce modèle est intéressant parce qu’il peut être exécuté localement sur une machine à moins de 3 000 $
Lors d’un test simple, j’ai fait quelques observations
1. La trace de sortie était très verbeuse, avec des paragraphes courts dans un style LinkedIn
2. La vitesse de sortie des tokens de la version hébergée était très élevée
3. Le respect des consignes et la qualité de sortie étaient supérieurs à ceux de grands modèles comme Opus 4.5
Le graphique avait l’axe des x inversé, ce qui prêtait à confusion
- J’ai pensé la même chose. Je ne sais pas pourquoi ils ont fait ça
- On dirait sans doute qu’ils voulaient rendre le graphique plus flatteur, mais en réalité ce n’est pas le cas