- Une architecture sparse Mixture of Experts qui n’active que 11 milliards de paramètres sur 196 milliards, afin d’assurer une inférence rapide et des interactions en temps réel
- Une vitesse de génération pouvant atteindre 350 tokens par seconde et une fenêtre de contexte de 256K
- Avec SWE-bench Verified 74,4 % , le modèle affiche des performances stables sur les benchmarks de codage et d’agents, tout en pouvant aussi fonctionner en local (Mac Studio M4 Max, NVIDIA DGX Spark)
- Grâce au raisonnement assisté par outils et à l’orchestration multi-agents, il démontre une forte fiabilité et une bonne capacité d’exécution dans des scénarios professionnels concrets, comme la finance, l’analyse de données ou l’automatisation de la recherche
- Une méthode d’optimisation MIS-PO fondée sur l’apprentissage par renforcement garantit la stabilité du raisonnement à long terme, tout en offrant des capacités de raisonnement et d’action de niveau frontier à moindre coût que les modèles très haut de gamme
Vue d’ensemble du modèle et performances
- Step 3.5 Flash est un foundation model open source qui combine inférence rapide et fonctions d’agent, avec un score moyen de 81,0 sur les benchmarks
- Un score moyen supérieur à celui de grands modèles comme GLM-4.7 (78,5), DeepSeek V3.2 (77,3) et Kimi K2.5 (80,5)
- Grâce à une architecture sparse MoE, seuls 11B paramètres sur 196B sont activés, ce qui permet des calculs efficaces et une réponse en temps réel
- Basé sur MTP-3, il atteint 100 à 300 tok/s en usage général, et jusqu’à 350 tok/s pour les tâches de codage
- Avec SWE-bench Verified 74,4 % et Terminal-Bench 2.0 51,0 % , il assure des performances stables sur les tâches de code et d’agents de longue durée
- La fenêtre de contexte de 256K est implémentée avec une structure SWA 3:1, afin de préserver l’efficacité économique même sur de longs contextes
Cas d’usage réels et utilisation d’outils
- Le raisonnement assisté par outils (tool-augmented reasoning) améliore les performances en mathématiques, en codage et en analyse de données
- Avec l’intégration de l’exécution Python, le modèle obtient de meilleurs scores sur AIME 2025 (99,8), HMMT 2025 (98,0) et IMOAnswerBench (86,7), entre autres
- Dans un scénario d’investissement boursier, il combine plus de 80 outils MCP pour automatiser la collecte de données, l’analyse et les alertes
- L’Autonomous Business Intelligence Engine automatise le traitement de fichiers CSV jusqu’aux prévisions, et identifie un écart de qualité des données de 1,6×
- Le Large-Scale Repository Architect analyse de vastes bases de code et génère un wiki spécialisé reliant les patterns d’architecture aux détails d’implémentation
Recherche et performances des agents
- Sur le benchmark ResearchRubrics, il atteint 65,3 %, soit mieux que Gemini DeepResearch (63,7) et OpenAI DeepResearch (60,7)
- Il exécute les étapes de planification, recherche, vérification et rédaction dans une boucle unique basée sur ReAct
- Dans l’environnement Claude Code, il atteint 39,6 % sur un benchmark d’analyse de données, légèrement au-dessus de GPT-5.2 (39,3)
- Grâce au Multi-Agent Framework, un Master Agent coordonne les agents de recherche, de vérification et de synthèse pour produire des résultats structurés
- Avec la Cloud-Device Synergy, son intégration avec Step-GUI lui permet d’obtenir 57 points sur le benchmark AndroidDaily Hard, contre 40 points seul
Architecture et caractéristiques techniques
- Le backbone Sparse MoE sépare la capacité globale (196B) du calcul par token (11B), afin d’optimiser le coût et la vitesse d’inférence
- La structure Sliding-Window Attention + Full Attention (3:1) maintient l’efficacité lors du traitement de longs contextes
- Le Head-wise Gated Attention contrôle dynamiquement le flux d’information et garantit la stabilité numérique
- Un débit de décodage de 350 tok/s est atteint sur les GPU NVIDIA Hopper
- Le modèle quantifié INT4 GGUF prend en charge l’inférence locale (20 tok/s, contexte 256K)
Framework d’apprentissage par renforcement
- Introduction de Metropolis Independence Sampling Filtered Policy Optimization (MIS-PO)
- Au lieu de l’échantillonnage par importance, un filtrage binaire élimine les échantillons instables
- Le truncation-aware value bootstrapping et le routing confidence monitoring stabilisent le raisonnement à long terme
- Cette architecture permet une auto-amélioration continue en mathématiques, en codage et dans l’usage d’outils de manière générale
Comparaison des benchmarks
- Step 3.5 Flash affiche des performances de haut niveau bien équilibrées dans trois domaines : reasoning, coding et agentic
- AIME 2025: 97.3 / HMMT 2025: 98.4 / LiveCodeBench-V6: 86.4
- τ²-Bench: 88.2 / BrowseComp-ZH: 66.9 / ResearchRubrics: 65.3
- Le coût de décodage est de 1.0x avec un contexte de 128K, ce qui est plus efficace que DeepSeek V3.2 (6.0x) et Kimi K2.5 (18.9x)
Limites et orientations futures
- Efficacité token : à qualité égale, il nécessite des générations plus longues que Gemini 3.0 Pro
- Intégration de l’expertise : des recherches sur la distillation on-policy sont en cours afin de combiner plus efficacement généralisme et spécialisation
- Extension du RL agentique : l’application du RL doit être étendue à des tâches complexes de niveau professionnel et recherche
- Stabilité opérationnelle : sur de longues conversations ou lors de changements de domaine, un risque de raisonnement répétitif et de sortie en langues mixtes subsiste
Déploiement et accessibilité
- Intégré à la plateforme OpenClaw, il peut être utilisé via une installation simple et l’enregistrement du modèle
- Accessible via une plateforme API (anglais/chinois) et des applications web et mobiles (iOS/Android)
- Une communauté Discord fournit mises à jour et assistance
Aucun commentaire pour le moment.