Galerie des architectures LLM

(sebastianraschka.com)

50 points par GN⁺ 2026-03-16 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Une galerie en ligne qui rassemble en un coup d’œil les schémas structurels et les spécifications clés des grands modèles de langage (LLM) les plus récents, incluant les principaux modèles publiés entre 2024 et 2026
Chaque modèle est présenté sous forme de tableau résumant la taille des paramètres, le type de décodeur, le mécanisme d’attention et les principaux choix de conception
Les contenus sont extraits des articles d’analyse comparative de Sebastian Raschka, « The Big LLM Architecture Comparison » et « A Dream of Spring for Open-Weight LLMs »
Les utilisateurs peuvent cliquer sur le nom d’un modèle pour accéder à sa description détaillée, ou cliquer sur l’image pour agrandir le schéma haute résolution (182 mégapixels)
Une base de données d’architectures de référence destinée aux chercheurs et développeurs travaillant sur les LLM open-weight, permettant d’observer en un seul endroit l’évolution récente des architectures MoE, Hybrid et Dense

Vue d’ensemble

Cette page est une galerie regroupant des schémas d’architecture LLM et des fiches techniques, organisée à partir des seuls diagrammes extraits de deux grands articles comparatifs de Raschka
- Sources originales : The Big LLM Architecture Comparison, A Dream of Spring for Open-Weight LLMs
Chaque entrée de modèle comprend le nom du modèle, le nombre de paramètres, la date de publication, le type de décodeur, le mécanisme d’attention, les principales caractéristiques de conception et des liens vers des concepts associés
En cas d’information erronée ou de lien cassé, il est possible de le signaler via le traqueur d’issues GitHub
Face à la demande, une version poster (PNG de 56 Mo) en résolution 14570×12490 est également proposée via Zazzle

Exemples de modèles principaux

Llama 3 8B

Modèle basé sur un décodeur Dense de 8 milliards de paramètres, servant de pile de référence pour comparer les choix de normalisation et d’attention d’OLMo 2
Utilise une attention GQA + RoPE avec une structure Pre-norm conservée
Publié le 18 avril 2024

OLMo 2 7B

Modèle Dense de 7 milliards de paramètres, utilisant une attention MHA + QK-Norm
Architecture inside-residual post-norm pour améliorer la stabilité de l’entraînement
Publié le 25 novembre 2024

DeepSeek V3

Modèle Sparse MoE avec 37 milliards de paramètres activés sur un total de 671 milliards
Combine une attention MLA avec une architecture à expert partagé (shared expert)
Modèle emblématique ayant déclenché l’essor des grands modèles MoE ouverts

DeepSeek R1

Version spécialisée pour le raisonnement basée sur DeepSeek V3, conservant la même architecture
Publié le 20 janvier 2025, avec une structure Sparse MoE basée sur MLA

Gemma 3 27B

Modèle Dense de 27 milliards de paramètres, utilisant GQA + QK-Norm ainsi qu’une attention sliding-window/globale en ratio 5:1
Se distingue par l’extension du vocabulaire multilingue et le renforcement de l’attention locale
Publié le 11 mars 2025

Extension des architectures MoE et Hybrid

Llama 4 Maverick

Modèle Sparse MoE de Meta, basé sur l’architecture de DeepSeek V3 mais adoptant une attention GQA traditionnelle
17 milliards de paramètres activés sur un total de 400 milliards
Alterne des blocs Dense et MoE, en réduisant le nombre d’experts tout en augmentant l’échelle

Qwen3 235B-A22B

Architecture Sparse MoE proche de DeepSeek V3, mais avec suppression de l’expert partagé
22 milliards de paramètres activés sur un total de 235 milliards, avec GQA + QK-Norm
Publié le 28 avril 2025

Kimi K2

Modèle Sparse MoE à l’échelle du billion de paramètres, prolongeant DeepSeek V3
Utilise une attention MLA, avec augmentation du nombre d’experts et réduction du nombre de têtes MLA
Publié le 10 juillet 2025

GLM-4.5 355B

Modèle Sparse MoE orienté agent, adoptant l’architecture Dense-prefix MoE de DeepSeek
32 milliards de paramètres activés sur un total de 355 milliards, avec GQA + QK-Norm
Publié le 28 juillet 2025

GPT-OSS 20B / 120B

Série MoE open-weight d’OpenAI, utilisant une attention croisée sliding-window/globale basée sur GQA
Le modèle 20B adopte une structure peu profonde et large, tandis que le modèle 120B en étend la conception
Publié le 4 août 2025

Architectures Hybrid et de nouvelle génération

Qwen3 Next 80B-A3B

Modèle Sparse Hybrid utilisant une attention mixte Gated DeltaNet + Gated Attention
3 milliards de paramètres activés sur un total de 80 milliards, avec prise en charge d’un contexte de 262k
Publié le 9 septembre 2025

Kimi Linear 48B-A3B

Architecture hybride combinant Linear Attention + MLA
Utilise NoPE et un gating au niveau des canaux pour améliorer l’efficacité sur les longs contextes
Publié le 30 octobre 2025

Nemotron 3 Nano / Super

Modèles hybrides Transformer-State-Space Hybrid de NVIDIA
Nano (30B) combine Mamba-2 + MoE, tandis que Super (120B) ajoute LatentMoE + MTP
Publiés respectivement le 4 décembre 2025 et le 11 mars 2026

Ling 2.5 1T

Modèle Sparse Hybrid d’un billion de paramètres, combinant Lightning Attention + MLA
63 milliards de paramètres actifs, avec une configuration d’attention linéaire/MLA au ratio 7:1
Publié le 15 février 2026

Derniers modèles open-weight

Qwen3.5 397B

Modèle phare reprenant l’attention hybride de Qwen3 Next
17 milliards de paramètres activés sur un total de 397 milliards, avec 512 experts
Publié le 16 février 2026

Sarvam 30B / 105B

Modèles Sparse MoE axés sur la prise en charge des langues indiennes
Le 30B utilise GQA + QK-Norm, le 105B utilise MLA + NoPE + RoPE
Publiés le 3 mars 2026

Articles de référence

The Big LLM Architecture Comparison : explique les différences de conception entre les architectures de décodeur Dense, MoE, MLA et Hybrid
A Dream of Spring for Open-Weight LLMs : analyse complémentaire des modèles open-weight révélés début 2026, dont MiniMax, Qwen, Ling et Sarvam

Galerie des architectures LLM

Vue d’ensemble

Exemples de modèles principaux

Llama 3 8B

OLMo 2 7B

DeepSeek V3

DeepSeek R1

Gemma 3 27B

Extension des architectures MoE et Hybrid

Llama 4 Maverick

Qwen3 235B-A22B

Kimi K2

GLM-4.5 355B

GPT-OSS 20B / 120B

Architectures Hybrid et de nouvelle génération

Qwen3 Next 80B-A3B

Kimi Linear 48B-A3B

Nemotron 3 Nano / Super

Ling 2.5 1T

Derniers modèles open-weight

Qwen3.5 397B

Sarvam 30B / 105B

Articles de référence

À lire aussi

Aucun commentaire pour le moment.