20 points par GN⁺ 2026-02-20 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Une architecture sparse Mixture of Experts qui n’active que 11 milliards de paramètres sur 196 milliards, afin d’assurer une inférence rapide et des interactions en temps réel
  • Une vitesse de génération pouvant atteindre 350 tokens par seconde et une fenêtre de contexte de 256K
  • Avec SWE-bench Verified 74,4 % , le modèle affiche des performances stables sur les benchmarks de codage et d’agents, tout en pouvant aussi fonctionner en local (Mac Studio M4 Max, NVIDIA DGX Spark)
  • Grâce au raisonnement assisté par outils et à l’orchestration multi-agents, il démontre une forte fiabilité et une bonne capacité d’exécution dans des scénarios professionnels concrets, comme la finance, l’analyse de données ou l’automatisation de la recherche
  • Une méthode d’optimisation MIS-PO fondée sur l’apprentissage par renforcement garantit la stabilité du raisonnement à long terme, tout en offrant des capacités de raisonnement et d’action de niveau frontier à moindre coût que les modèles très haut de gamme

Vue d’ensemble du modèle et performances

  • Step 3.5 Flash est un foundation model open source qui combine inférence rapide et fonctions d’agent, avec un score moyen de 81,0 sur les benchmarks
    • Un score moyen supérieur à celui de grands modèles comme GLM-4.7 (78,5), DeepSeek V3.2 (77,3) et Kimi K2.5 (80,5)
  • Grâce à une architecture sparse MoE, seuls 11B paramètres sur 196B sont activés, ce qui permet des calculs efficaces et une réponse en temps réel
  • Basé sur MTP-3, il atteint 100 à 300 tok/s en usage général, et jusqu’à 350 tok/s pour les tâches de codage
  • Avec SWE-bench Verified 74,4 % et Terminal-Bench 2.0 51,0 % , il assure des performances stables sur les tâches de code et d’agents de longue durée
  • La fenêtre de contexte de 256K est implémentée avec une structure SWA 3:1, afin de préserver l’efficacité économique même sur de longs contextes

Cas d’usage réels et utilisation d’outils

  • Le raisonnement assisté par outils (tool-augmented reasoning) améliore les performances en mathématiques, en codage et en analyse de données
    • Avec l’intégration de l’exécution Python, le modèle obtient de meilleurs scores sur AIME 2025 (99,8), HMMT 2025 (98,0) et IMOAnswerBench (86,7), entre autres
  • Dans un scénario d’investissement boursier, il combine plus de 80 outils MCP pour automatiser la collecte de données, l’analyse et les alertes
  • L’Autonomous Business Intelligence Engine automatise le traitement de fichiers CSV jusqu’aux prévisions, et identifie un écart de qualité des données de 1,6×
  • Le Large-Scale Repository Architect analyse de vastes bases de code et génère un wiki spécialisé reliant les patterns d’architecture aux détails d’implémentation

Recherche et performances des agents

  • Sur le benchmark ResearchRubrics, il atteint 65,3 %, soit mieux que Gemini DeepResearch (63,7) et OpenAI DeepResearch (60,7)
    • Il exécute les étapes de planification, recherche, vérification et rédaction dans une boucle unique basée sur ReAct
  • Dans l’environnement Claude Code, il atteint 39,6 % sur un benchmark d’analyse de données, légèrement au-dessus de GPT-5.2 (39,3)
  • Grâce au Multi-Agent Framework, un Master Agent coordonne les agents de recherche, de vérification et de synthèse pour produire des résultats structurés
  • Avec la Cloud-Device Synergy, son intégration avec Step-GUI lui permet d’obtenir 57 points sur le benchmark AndroidDaily Hard, contre 40 points seul

Architecture et caractéristiques techniques

  • Le backbone Sparse MoE sépare la capacité globale (196B) du calcul par token (11B), afin d’optimiser le coût et la vitesse d’inférence
  • La structure Sliding-Window Attention + Full Attention (3:1) maintient l’efficacité lors du traitement de longs contextes
  • Le Head-wise Gated Attention contrôle dynamiquement le flux d’information et garantit la stabilité numérique
  • Un débit de décodage de 350 tok/s est atteint sur les GPU NVIDIA Hopper
  • Le modèle quantifié INT4 GGUF prend en charge l’inférence locale (20 tok/s, contexte 256K)

Framework d’apprentissage par renforcement

  • Introduction de Metropolis Independence Sampling Filtered Policy Optimization (MIS-PO)
    • Au lieu de l’échantillonnage par importance, un filtrage binaire élimine les échantillons instables
    • Le truncation-aware value bootstrapping et le routing confidence monitoring stabilisent le raisonnement à long terme
  • Cette architecture permet une auto-amélioration continue en mathématiques, en codage et dans l’usage d’outils de manière générale

Comparaison des benchmarks

  • Step 3.5 Flash affiche des performances de haut niveau bien équilibrées dans trois domaines : reasoning, coding et agentic
    • AIME 2025: 97.3 / HMMT 2025: 98.4 / LiveCodeBench-V6: 86.4
    • τ²-Bench: 88.2 / BrowseComp-ZH: 66.9 / ResearchRubrics: 65.3
  • Le coût de décodage est de 1.0x avec un contexte de 128K, ce qui est plus efficace que DeepSeek V3.2 (6.0x) et Kimi K2.5 (18.9x)

Limites et orientations futures

  • Efficacité token : à qualité égale, il nécessite des générations plus longues que Gemini 3.0 Pro
  • Intégration de l’expertise : des recherches sur la distillation on-policy sont en cours afin de combiner plus efficacement généralisme et spécialisation
  • Extension du RL agentique : l’application du RL doit être étendue à des tâches complexes de niveau professionnel et recherche
  • Stabilité opérationnelle : sur de longues conversations ou lors de changements de domaine, un risque de raisonnement répétitif et de sortie en langues mixtes subsiste

Déploiement et accessibilité

  • Intégré à la plateforme OpenClaw, il peut être utilisé via une installation simple et l’enregistrement du modèle
  • Accessible via une plateforme API (anglais/chinois) et des applications web et mobiles (iOS/Android)
  • Une communauté Discord fournit mises à jour et assistance

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.