- Une galerie en ligne qui rassemble en un coup d’œil les schémas structurels et les spécifications clés des grands modèles de langage (LLM) les plus récents, incluant les principaux modèles publiés entre 2024 et 2026
- Chaque modèle est présenté sous forme de tableau résumant la taille des paramètres, le type de décodeur, le mécanisme d’attention et les principaux choix de conception
- Les contenus sont extraits des articles d’analyse comparative de Sebastian Raschka, « The Big LLM Architecture Comparison » et « A Dream of Spring for Open-Weight LLMs »
- Les utilisateurs peuvent cliquer sur le nom d’un modèle pour accéder à sa description détaillée, ou cliquer sur l’image pour agrandir le schéma haute résolution (182 mégapixels)
- Une base de données d’architectures de référence destinée aux chercheurs et développeurs travaillant sur les LLM open-weight, permettant d’observer en un seul endroit l’évolution récente des architectures MoE, Hybrid et Dense
Vue d’ensemble
- Cette page est une galerie regroupant des schémas d’architecture LLM et des fiches techniques, organisée à partir des seuls diagrammes extraits de deux grands articles comparatifs de Raschka
- Sources originales : The Big LLM Architecture Comparison, A Dream of Spring for Open-Weight LLMs
- Chaque entrée de modèle comprend le nom du modèle, le nombre de paramètres, la date de publication, le type de décodeur, le mécanisme d’attention, les principales caractéristiques de conception et des liens vers des concepts associés
- En cas d’information erronée ou de lien cassé, il est possible de le signaler via le traqueur d’issues GitHub
- Face à la demande, une version poster (PNG de 56 Mo) en résolution 14570×12490 est également proposée via Zazzle
Exemples de modèles principaux
Llama 3 8B
- Modèle basé sur un décodeur Dense de 8 milliards de paramètres, servant de pile de référence pour comparer les choix de normalisation et d’attention d’OLMo 2
- Utilise une attention GQA + RoPE avec une structure Pre-norm conservée
- Publié le 18 avril 2024
OLMo 2 7B
- Modèle Dense de 7 milliards de paramètres, utilisant une attention MHA + QK-Norm
- Architecture inside-residual post-norm pour améliorer la stabilité de l’entraînement
- Publié le 25 novembre 2024
DeepSeek V3
- Modèle Sparse MoE avec 37 milliards de paramètres activés sur un total de 671 milliards
- Combine une attention MLA avec une architecture à expert partagé (shared expert)
- Modèle emblématique ayant déclenché l’essor des grands modèles MoE ouverts
DeepSeek R1
- Version spécialisée pour le raisonnement basée sur DeepSeek V3, conservant la même architecture
- Publié le 20 janvier 2025, avec une structure Sparse MoE basée sur MLA
Gemma 3 27B
- Modèle Dense de 27 milliards de paramètres, utilisant GQA + QK-Norm ainsi qu’une attention sliding-window/globale en ratio 5:1
- Se distingue par l’extension du vocabulaire multilingue et le renforcement de l’attention locale
- Publié le 11 mars 2025
Extension des architectures MoE et Hybrid
Llama 4 Maverick
- Modèle Sparse MoE de Meta, basé sur l’architecture de DeepSeek V3 mais adoptant une attention GQA traditionnelle
- 17 milliards de paramètres activés sur un total de 400 milliards
- Alterne des blocs Dense et MoE, en réduisant le nombre d’experts tout en augmentant l’échelle
Qwen3 235B-A22B
- Architecture Sparse MoE proche de DeepSeek V3, mais avec suppression de l’expert partagé
- 22 milliards de paramètres activés sur un total de 235 milliards, avec GQA + QK-Norm
- Publié le 28 avril 2025
Kimi K2
- Modèle Sparse MoE à l’échelle du billion de paramètres, prolongeant DeepSeek V3
- Utilise une attention MLA, avec augmentation du nombre d’experts et réduction du nombre de têtes MLA
- Publié le 10 juillet 2025
GLM-4.5 355B
- Modèle Sparse MoE orienté agent, adoptant l’architecture Dense-prefix MoE de DeepSeek
- 32 milliards de paramètres activés sur un total de 355 milliards, avec GQA + QK-Norm
- Publié le 28 juillet 2025
GPT-OSS 20B / 120B
- Série MoE open-weight d’OpenAI, utilisant une attention croisée sliding-window/globale basée sur GQA
- Le modèle 20B adopte une structure peu profonde et large, tandis que le modèle 120B en étend la conception
- Publié le 4 août 2025
Architectures Hybrid et de nouvelle génération
Qwen3 Next 80B-A3B
- Modèle Sparse Hybrid utilisant une attention mixte Gated DeltaNet + Gated Attention
- 3 milliards de paramètres activés sur un total de 80 milliards, avec prise en charge d’un contexte de 262k
- Publié le 9 septembre 2025
Kimi Linear 48B-A3B
- Architecture hybride combinant Linear Attention + MLA
- Utilise NoPE et un gating au niveau des canaux pour améliorer l’efficacité sur les longs contextes
- Publié le 30 octobre 2025
Nemotron 3 Nano / Super
- Modèles hybrides Transformer-State-Space Hybrid de NVIDIA
- Nano (30B) combine Mamba-2 + MoE, tandis que Super (120B) ajoute LatentMoE + MTP
- Publiés respectivement le 4 décembre 2025 et le 11 mars 2026
Ling 2.5 1T
- Modèle Sparse Hybrid d’un billion de paramètres, combinant Lightning Attention + MLA
- 63 milliards de paramètres actifs, avec une configuration d’attention linéaire/MLA au ratio 7:1
- Publié le 15 février 2026
Derniers modèles open-weight
Qwen3.5 397B
- Modèle phare reprenant l’attention hybride de Qwen3 Next
- 17 milliards de paramètres activés sur un total de 397 milliards, avec 512 experts
- Publié le 16 février 2026
Sarvam 30B / 105B
- Modèles Sparse MoE axés sur la prise en charge des langues indiennes
- Le 30B utilise GQA + QK-Norm, le 105B utilise MLA + NoPE + RoPE
- Publiés le 3 mars 2026
Articles de référence
- The Big LLM Architecture Comparison : explique les différences de conception entre les architectures de décodeur Dense, MoE, MLA et Hybrid
- A Dream of Spring for Open-Weight LLMs : analyse complémentaire des modèles open-weight révélés début 2026, dont MiniMax, Qwen, Ling et Sarvam
Aucun commentaire pour le moment.