Qu’est-ce que le Mixture of Experts (MoE) — pourquoi DeepSeek fonctionne à bas coût avec 1,6 billion de paramètres
(app-place-tech.com)Qu’est-ce que le Mixture of Experts (MoE) — pourquoi DeepSeek fonctionne à bas coût avec 1,6 billion de paramètres
Cet article explique, à travers l’architecture MoE, pourquoi DeepSeek V4 peut proposer un service avec 1,6 billion de paramètres à un prix dix fois inférieur à celui de GPT-5.5.
Le MoE se compose de plusieurs sous-modèles experts (Experts) et d’un routeur (gating network) qui décide quels experts utiliser. L’idée centrale est que, pour chaque token, seule une partie de l’ensemble des paramètres est activée de manière sélective. Dans un modèle dense (Dense Model) classique, tous les paramètres participent au calcul quelle que soit l’entrée, alors qu’avec le MoE, le routeur sélectionne seulement quelques experts parmi les plus adaptés pour effectuer le traitement.
Pour DeepSeek V4-Pro, sur un total de 1,6 billion de paramètres, seuls 49 milliards environ (près de 3 %) sont activés par token. Autrement dit, le modèle embarque les connaissances d’une architecture à 1,6 billion de paramètres, tout en ayant un coût d’inférence réel comparable à celui d’un modèle d’environ 49 milliards de paramètres. En général, le MoE améliore les performances par rapport au coût d’un facteur de 3 à 5 par rapport à un modèle dense de taille équivalente.
Il y a aussi des inconvénients. Même si le calcul est sparse, les paramètres de tous les experts doivent être chargés en mémoire, ce qui augmente les besoins en VRAM. De plus, pendant l’entraînement, il faut gérer séparément les problèmes de déséquilibre lorsque la charge se concentre sur certains experts.
En 2026, la plupart des grands modèles de frontière, comme GPT-4, Gemini 1.5, Mixtral ou la série DeepSeek, reposent sur le MoE. Cela reflète le déplacement de la compétition entre modèles d’IA, qui ne porte plus seulement sur la taille brute mais sur le rapport coût-performance, au point que le MoE s’est imposé de fait comme architecture standard.
4 commentaires
En 2026, GPT-4 et Gemini 1.5 ? C’est clairement un article de pur AI slop.
Dans le cas des modèles les plus récents, comme leur mode d’implémentation interne n’est pas détaillé, il semble que lors de la phase de recherche documentaire on se soit appuyé sur des modèles antérieurs, et il est très probable que tous les modèles sortis après GPT-5 aient hérité d’une architecture MoE. C’est parce que les modèles open source parallèles sont construits sur une structure MoE. Dans le cas des modèles closed récents, l’architecture n’est pas rendue publique, donc il ne s’agit pas d’une règle officielle confirmée.
Parmi les principaux modèles de frontière qui utilisent le MoE, cela veut-il dire que GPT-5.5 n’utilise pas le MoE ?
49B, c’est déjà énorme.