3 points par jinhyungpark 2025-05-16 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Le secret de Qwen3 d’Alibaba, l’un des modèles open source les plus populaires, réside dans son architecture Mixture-of-Experts (MoE). Mais le choix des experts n’est pas toujours pertinent, et certains experts sont presque jamais sélectionnés, ce qui les rend inutiles.

Cet article présente plusieurs stratégies pour évaluer et sélectionner avec précision les experts qui contribuent réellement à la qualité des sorties de l’IA, au-delà de l’approche classique qui consiste à n’utiliser que les experts les plus fréquemment sollicités, lors du réglage du routeur des architectures MoE, y compris pour Qwen3 MoE. Ces stratégies permettent d’améliorer à la fois la précision et la vitesse des modèles MoE.

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.