Step 3.5 Flash – un LLM open source conçu pour l’inférence rapide

(static.stepfun.com)

20 points par GN⁺ 2026-02-20 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Une architecture sparse Mixture of Experts qui n’active que 11 milliards de paramètres sur 196 milliards, afin d’assurer une inférence rapide et des interactions en temps réel
Une vitesse de génération pouvant atteindre 350 tokens par seconde et une fenêtre de contexte de 256K
Avec SWE-bench Verified 74,4 % , le modèle affiche des performances stables sur les benchmarks de codage et d’agents, tout en pouvant aussi fonctionner en local (Mac Studio M4 Max, NVIDIA DGX Spark)
Grâce au raisonnement assisté par outils et à l’orchestration multi-agents, il démontre une forte fiabilité et une bonne capacité d’exécution dans des scénarios professionnels concrets, comme la finance, l’analyse de données ou l’automatisation de la recherche
Une méthode d’optimisation MIS-PO fondée sur l’apprentissage par renforcement garantit la stabilité du raisonnement à long terme, tout en offrant des capacités de raisonnement et d’action de niveau frontier à moindre coût que les modèles très haut de gamme

Vue d’ensemble du modèle et performances

Step 3.5 Flash est un foundation model open source qui combine inférence rapide et fonctions d’agent, avec un score moyen de 81,0 sur les benchmarks
- Un score moyen supérieur à celui de grands modèles comme GLM-4.7 (78,5), DeepSeek V3.2 (77,3) et Kimi K2.5 (80,5)
Grâce à une architecture sparse MoE, seuls 11B paramètres sur 196B sont activés, ce qui permet des calculs efficaces et une réponse en temps réel
Basé sur MTP-3, il atteint 100 à 300 tok/s en usage général, et jusqu’à 350 tok/s pour les tâches de codage
Avec SWE-bench Verified 74,4 % et Terminal-Bench 2.0 51,0 % , il assure des performances stables sur les tâches de code et d’agents de longue durée
La fenêtre de contexte de 256K est implémentée avec une structure SWA 3:1, afin de préserver l’efficacité économique même sur de longs contextes

Le raisonnement assisté par outils (tool-augmented reasoning) améliore les performances en mathématiques, en codage et en analyse de données
- Avec l’intégration de l’exécution Python, le modèle obtient de meilleurs scores sur AIME 2025 (99,8), HMMT 2025 (98,0) et IMOAnswerBench (86,7), entre autres
Dans un scénario d’investissement boursier, il combine plus de 80 outils MCP pour automatiser la collecte de données, l’analyse et les alertes
L’Autonomous Business Intelligence Engine automatise le traitement de fichiers CSV jusqu’aux prévisions, et identifie un écart de qualité des données de 1,6×
Le Large-Scale Repository Architect analyse de vastes bases de code et génère un wiki spécialisé reliant les patterns d’architecture aux détails d’implémentation

Sur le benchmark ResearchRubrics, il atteint 65,3 %, soit mieux que Gemini DeepResearch (63,7) et OpenAI DeepResearch (60,7)
- Il exécute les étapes de planification, recherche, vérification et rédaction dans une boucle unique basée sur ReAct
Dans l’environnement Claude Code, il atteint 39,6 % sur un benchmark d’analyse de données, légèrement au-dessus de GPT-5.2 (39,3)
Grâce au Multi-Agent Framework, un Master Agent coordonne les agents de recherche, de vérification et de synthèse pour produire des résultats structurés
Avec la Cloud-Device Synergy, son intégration avec Step-GUI lui permet d’obtenir 57 points sur le benchmark AndroidDaily Hard, contre 40 points seul

Le backbone Sparse MoE sépare la capacité globale (196B) du calcul par token (11B), afin d’optimiser le coût et la vitesse d’inférence
La structure Sliding-Window Attention + Full Attention (3:1) maintient l’efficacité lors du traitement de longs contextes
Le Head-wise Gated Attention contrôle dynamiquement le flux d’information et garantit la stabilité numérique
Un débit de décodage de 350 tok/s est atteint sur les GPU NVIDIA Hopper
Le modèle quantifié INT4 GGUF prend en charge l’inférence locale (20 tok/s, contexte 256K)

Introduction de Metropolis Independence Sampling Filtered Policy Optimization (MIS-PO)
- Au lieu de l’échantillonnage par importance, un filtrage binaire élimine les échantillons instables
- Le truncation-aware value bootstrapping et le routing confidence monitoring stabilisent le raisonnement à long terme
Cette architecture permet une auto-amélioration continue en mathématiques, en codage et dans l’usage d’outils de manière générale

Step 3.5 Flash affiche des performances de haut niveau bien équilibrées dans trois domaines : reasoning, coding et agentic
- AIME 2025: 97.3 / HMMT 2025: 98.4 / LiveCodeBench-V6: 86.4
- τ²-Bench: 88.2 / BrowseComp-ZH: 66.9 / ResearchRubrics: 65.3
Le coût de décodage est de 1.0x avec un contexte de 128K, ce qui est plus efficace que DeepSeek V3.2 (6.0x) et Kimi K2.5 (18.9x)

Efficacité token : à qualité égale, il nécessite des générations plus longues que Gemini 3.0 Pro
Intégration de l’expertise : des recherches sur la distillation on-policy sont en cours afin de combiner plus efficacement généralisme et spécialisation
Extension du RL agentique : l’application du RL doit être étendue à des tâches complexes de niveau professionnel et recherche
Stabilité opérationnelle : sur de longues conversations ou lors de changements de domaine, un risque de raisonnement répétitif et de sortie en langues mixtes subsiste

Intégré à la plateforme OpenClaw, il peut être utilisé via une installation simple et l’enregistrement du modèle
Accessible via une plateforme API (anglais/chinois) et des applications web et mobiles (iOS/Android)
Une communauté Discord fournit mises à jour et assistance