- Une architecture sparse Mixture of Experts qui n’active que 11 milliards de paramètres sur 196 milliards, afin d’assurer une inférence rapide et des interactions en temps réel
- Une vitesse de génération pouvant atteindre 350 tokens par seconde et une fenêtre de contexte de 256K
- Avec SWE-bench Verified 74,4 % , le modèle affiche des performances stables sur les benchmarks de codage et d’agents, tout en pouvant aussi fonctionner en local (Mac Studio M4 Max, NVIDIA DGX Spark)
- Grâce au raisonnement assisté par outils et à l’orchestration multi-agents, il démontre une forte fiabilité et une bonne capacité d’exécution dans des scénarios professionnels concrets, comme la finance, l’analyse de données ou l’automatisation de la recherche
- Une méthode d’optimisation MIS-PO fondée sur l’apprentissage par renforcement garantit la stabilité du raisonnement à long terme, tout en offrant des capacités de raisonnement et d’action de niveau frontier à moindre coût que les modèles très haut de gamme
Vue d’ensemble du modèle et performances
- Step 3.5 Flash est un foundation model open source qui combine inférence rapide et fonctions d’agent, avec un score moyen de 81,0 sur les benchmarks
- Un score moyen supérieur à celui de grands modèles comme GLM-4.7 (78,5), DeepSeek V3.2 (77,3) et Kimi K2.5 (80,5)
- Grâce à une architecture sparse MoE, seuls 11B paramètres sur 196B sont activés, ce qui permet des calculs efficaces et une réponse en temps réel
- Basé sur MTP-3, il atteint 100 à 300 tok/s en usage général, et jusqu’à 350 tok/s pour les tâches de codage
- Avec SWE-bench Verified 74,4 % et Terminal-Bench 2.0 51,0 % , il assure des performances stables sur les tâches de code et d’agents de longue durée
- La fenêtre de contexte de 256K est implémentée avec une structure SWA 3:1, afin de préserver l’efficacité économique même sur de longs contextes
Cas d’usage réels et utilisation d’outils
- Le raisonnement assisté par outils (tool-augmented reasoning) améliore les performances en mathématiques, en codage et en analyse de données
- Avec l’intégration de l’exécution Python, le modèle obtient de meilleurs scores sur AIME 2025 (99,8), HMMT 2025 (98,0) et IMOAnswerBench (86,7), entre autres
- Dans un scénario d’investissement boursier, il combine plus de 80 outils MCP pour automatiser la collecte de données, l’analyse et les alertes
- L’Autonomous Business Intelligence Engine automatise le traitement de fichiers CSV jusqu’aux prévisions, et identifie un écart de qualité des données de 1,6×
- Le Large-Scale Repository Architect analyse de vastes bases de code et génère un wiki spécialisé reliant les patterns d’architecture aux détails d’implémentation
Recherche et performances des agents
- Sur le benchmark ResearchRubrics, il atteint 65,3 %, soit mieux que Gemini DeepResearch (63,7) et OpenAI DeepResearch (60,7)
- Il exécute les étapes de planification, recherche, vérification et rédaction dans une boucle unique basée sur ReAct
- Dans l’environnement Claude Code, il atteint 39,6 % sur un benchmark d’analyse de données, légèrement au-dessus de GPT-5.2 (39,3)
- Grâce au Multi-Agent Framework, un Master Agent coordonne les agents de recherche, de vérification et de synthèse pour produire des résultats structurés
- Avec la Cloud-Device Synergy, son intégration avec Step-GUI lui permet d’obtenir 57 points sur le benchmark AndroidDaily Hard, contre 40 points seul
Architecture et caractéristiques techniques
- Le backbone Sparse MoE sépare la capacité globale (196B) du calcul par token (11B), afin d’optimiser le coût et la vitesse d’inférence
- La structure Sliding-Window Attention + Full Attention (3:1) maintient l’efficacité lors du traitement de longs contextes
- Le Head-wise Gated Attention contrôle dynamiquement le flux d’information et garantit la stabilité numérique
- Un débit de décodage de 350 tok/s est atteint sur les GPU NVIDIA Hopper
- Le modèle quantifié INT4 GGUF prend en charge l’inférence locale (20 tok/s, contexte 256K)
Framework d’apprentissage par renforcement
- Introduction de Metropolis Independence Sampling Filtered Policy Optimization (MIS-PO)
- Au lieu de l’échantillonnage par importance, un filtrage binaire élimine les échantillons instables
- Le truncation-aware value bootstrapping et le routing confidence monitoring stabilisent le raisonnement à long terme
- Cette architecture permet une auto-amélioration continue en mathématiques, en codage et dans l’usage d’outils de manière générale
Comparaison des benchmarks
- Step 3.5 Flash affiche des performances de haut niveau bien équilibrées dans trois domaines : reasoning, coding et agentic
- AIME 2025: 97.3 / HMMT 2025: 98.4 / LiveCodeBench-V6: 86.4
- τ²-Bench: 88.2 / BrowseComp-ZH: 66.9 / ResearchRubrics: 65.3
- Le coût de décodage est de 1.0x avec un contexte de 128K, ce qui est plus efficace que DeepSeek V3.2 (6.0x) et Kimi K2.5 (18.9x)
Limites et orientations futures
- Efficacité token : à qualité égale, il nécessite des générations plus longues que Gemini 3.0 Pro
- Intégration de l’expertise : des recherches sur la distillation on-policy sont en cours afin de combiner plus efficacement généralisme et spécialisation
- Extension du RL agentique : l’application du RL doit être étendue à des tâches complexes de niveau professionnel et recherche
- Stabilité opérationnelle : sur de longues conversations ou lors de changements de domaine, un risque de raisonnement répétitif et de sortie en langues mixtes subsiste
Déploiement et accessibilité
- Intégré à la plateforme OpenClaw, il peut être utilisé via une installation simple et l’enregistrement du modèle
- Accessible via une plateforme API (anglais/chinois) et des applications web et mobiles (iOS/Android)
- Une communauté Discord fournit mises à jour et assistance
2 commentaires
Ce modèle envoie du lourd
Si vous avez la possibilité de le faire tourner avec llama.cpp, il faut appliquer séparément le prompt qui se trouve dans les commentaires du fil ci-dessous. Sinon, vous risquez d’avoir un problème où un
</think>apparaît tout seul au milieu sans balise ouvrante<think>.https://huggingface.co/stepfun-ai/Step-3.5-Flash-GGUF-Q4_K_S/…
Avis sur Hacker News
Je pense que c’est l’une des sorties de LLM les plus sous-estimées de ces derniers mois
Je l’ai testé en local avec la version quantifiée en 4 bits (Step-3.5-Flash-GGUF), et il était meilleur que Minimax 2.5 ou GLM-4.7 (GLM n’était dispo qu’en 2 bits)
Les principales caractéristiques sont les suivantes
C’est le premier modèle local de la classe des 200B paramètres réellement utilisable dans un harness CLI. Je l’utilise avec pi.dev et c’est la meilleure expérience que j’ai eue jusqu’ici
Côté inconvénients, il y a un bug de boucle de raisonnement infinie (issue associée)
Il semble que StepFun soit aussi l’entreprise derrière ACEStep (un modèle de génération musicale), également mentionné dans la documentation ComfyUI
Il se trompe parfois dans les appels d’outils, mais avec le réglage temperature=1 recommandé par Qwen, il ne se bloque pas
Nemotron 3 Nano manquait d’aisance avec les outils et avait tendance à n’utiliser presque que le shell tool
Globalement, les modèles open weight orientés agent ont tendance à mal appeler les outils qu’ils connaissent peu
J’aimerais savoir si quelqu’un a déjà fait ce calcul
À mon avis, c’est plutôt un problème qui nécessiterait de modifier les poids du modèle lui-même
J’ai récemment trouvé le raisonnement derrière l’astuce « Walk or drive to the carwash » intéressant
Liens associés : gist, conversation stepfun.ai
Il est annoncé à 51,0 % sur Terminal-Bench 2.0, mais je doute que cela garantisse vraiment une « capacité fiable à gérer des tâches longues »
Si on regarde le leaderboard, le meilleur score est de 75 %, donc 51 % correspond à environ ⅔ du SOTA
Le modèle a peut-être simplement mémorisé des flags de commande
Après test, les hallucinations étaient importantes. Même pour une question simple comme « trouve-moi un deck champion Pokémon », les réponses manquaient de précision
Opus 4.6, Deepseek et Kimi ont fonctionné comme attendu
Il s’agit d’un modèle récemment publié utilisant une architecture Mixture of Experts (MoE), avec seulement 11B activés par token sur 196B
Il surpasse Kimi K2.5 et GLM 4.7 sur davantage de benchmarks
Il peut tourner sur une machine de 128 Go en version quantifiée 4 bits (lien de référence)
Voir la page du modèle
Les modèles récents affichent de bons scores sur les benchmarks, mais au prix d’une explosion de la consommation de tokens
Pour une vraie avancée, il faudra résoudre le problème de l’efficacité énergétique
L’usage efficace d’une architecture MoE a un impact à la fois sur les tokens/joule et sur les tokens/sec
SWE-bench Verified est correct, mais il faudrait un meilleur benchmark SWE
Construire un benchmark équitable implique des coûts d’exécution continus élevés
Le concept de « benchmark live » est bon, mais il ne reflète pas suffisamment les modèles les plus récents
Lien vers le document
Je pense qu’un indicateur plus important que le nombre de paramètres est le tokens per dollar/sec
Parce que les meilleurs modèles ne prennent pas en charge l’inférence locale
Par exemple, Qwen3 0.6b est excellent en tok/dollar, mais insuffisant pour la plupart des usages
Lors d’un test simple, j’ai fait quelques observations
Le graphique avait l’axe des x inversé, ce qui prêtait à confusion