Galerie des architectures LLM

(sebastianraschka.com)

50 points par GN⁺ 2026-03-16 | 2 commentaires | Partager sur WhatsApp

Une galerie en ligne qui rassemble en un coup d’œil les schémas structurels et les spécifications clés des grands modèles de langage (LLM) les plus récents, incluant les principaux modèles publiés entre 2024 et 2026
Chaque modèle est présenté sous forme de tableau résumant la taille des paramètres, le type de décodeur, le mécanisme d’attention et les principaux choix de conception
Les contenus sont extraits des articles d’analyse comparative de Sebastian Raschka, « The Big LLM Architecture Comparison » et « A Dream of Spring for Open-Weight LLMs »
Les utilisateurs peuvent cliquer sur le nom d’un modèle pour accéder à sa description détaillée, ou cliquer sur l’image pour agrandir le schéma haute résolution (182 mégapixels)
Une base de données d’architectures de référence destinée aux chercheurs et développeurs travaillant sur les LLM open-weight, permettant d’observer en un seul endroit l’évolution récente des architectures MoE, Hybrid et Dense

Vue d’ensemble

Cette page est une galerie regroupant des schémas d’architecture LLM et des fiches techniques, organisée à partir des seuls diagrammes extraits de deux grands articles comparatifs de Raschka
- Sources originales : The Big LLM Architecture Comparison, A Dream of Spring for Open-Weight LLMs
Chaque entrée de modèle comprend le nom du modèle, le nombre de paramètres, la date de publication, le type de décodeur, le mécanisme d’attention, les principales caractéristiques de conception et des liens vers des concepts associés
En cas d’information erronée ou de lien cassé, il est possible de le signaler via le traqueur d’issues GitHub
Face à la demande, une version poster (PNG de 56 Mo) en résolution 14570×12490 est également proposée via Zazzle

Exemples de modèles principaux

Llama 3 8B

Modèle basé sur un décodeur Dense de 8 milliards de paramètres, servant de pile de référence pour comparer les choix de normalisation et d’attention d’OLMo 2
Utilise une attention GQA + RoPE avec une structure Pre-norm conservée
Publié le 18 avril 2024

OLMo 2 7B

Modèle Dense de 7 milliards de paramètres, utilisant une attention MHA + QK-Norm
Architecture inside-residual post-norm pour améliorer la stabilité de l’entraînement
Publié le 25 novembre 2024

DeepSeek V3

Modèle Sparse MoE avec 37 milliards de paramètres activés sur un total de 671 milliards
Combine une attention MLA avec une architecture à expert partagé (shared expert)
Modèle emblématique ayant déclenché l’essor des grands modèles MoE ouverts

DeepSeek R1

Version spécialisée pour le raisonnement basée sur DeepSeek V3, conservant la même architecture
Publié le 20 janvier 2025, avec une structure Sparse MoE basée sur MLA

Gemma 3 27B

Modèle Dense de 27 milliards de paramètres, utilisant GQA + QK-Norm ainsi qu’une attention sliding-window/globale en ratio 5:1
Se distingue par l’extension du vocabulaire multilingue et le renforcement de l’attention locale
Publié le 11 mars 2025

Extension des architectures MoE et Hybrid

Llama 4 Maverick

Modèle Sparse MoE de Meta, basé sur l’architecture de DeepSeek V3 mais adoptant une attention GQA traditionnelle
17 milliards de paramètres activés sur un total de 400 milliards
Alterne des blocs Dense et MoE, en réduisant le nombre d’experts tout en augmentant l’échelle

Qwen3 235B-A22B

Architecture Sparse MoE proche de DeepSeek V3, mais avec suppression de l’expert partagé
22 milliards de paramètres activés sur un total de 235 milliards, avec GQA + QK-Norm
Publié le 28 avril 2025

Kimi K2

Modèle Sparse MoE à l’échelle du billion de paramètres, prolongeant DeepSeek V3
Utilise une attention MLA, avec augmentation du nombre d’experts et réduction du nombre de têtes MLA
Publié le 10 juillet 2025

GLM-4.5 355B

Modèle Sparse MoE orienté agent, adoptant l’architecture Dense-prefix MoE de DeepSeek
32 milliards de paramètres activés sur un total de 355 milliards, avec GQA + QK-Norm
Publié le 28 juillet 2025

GPT-OSS 20B / 120B

Série MoE open-weight d’OpenAI, utilisant une attention croisée sliding-window/globale basée sur GQA
Le modèle 20B adopte une structure peu profonde et large, tandis que le modèle 120B en étend la conception
Publié le 4 août 2025

Architectures Hybrid et de nouvelle génération

Qwen3 Next 80B-A3B

Modèle Sparse Hybrid utilisant une attention mixte Gated DeltaNet + Gated Attention
3 milliards de paramètres activés sur un total de 80 milliards, avec prise en charge d’un contexte de 262k
Publié le 9 septembre 2025

Kimi Linear 48B-A3B

Architecture hybride combinant Linear Attention + MLA
Utilise NoPE et un gating au niveau des canaux pour améliorer l’efficacité sur les longs contextes
Publié le 30 octobre 2025

Nemotron 3 Nano / Super

Modèles hybrides Transformer-State-Space Hybrid de NVIDIA
Nano (30B) combine Mamba-2 + MoE, tandis que Super (120B) ajoute LatentMoE + MTP
Publiés respectivement le 4 décembre 2025 et le 11 mars 2026

Ling 2.5 1T

Modèle Sparse Hybrid d’un billion de paramètres, combinant Lightning Attention + MLA
63 milliards de paramètres actifs, avec une configuration d’attention linéaire/MLA au ratio 7:1
Publié le 15 février 2026

Derniers modèles open-weight

Qwen3.5 397B

Modèle phare reprenant l’attention hybride de Qwen3 Next
17 milliards de paramètres activés sur un total de 397 milliards, avec 512 experts
Publié le 16 février 2026

Sarvam 30B / 105B

Modèles Sparse MoE axés sur la prise en charge des langues indiennes
Le 30B utilise GQA + QK-Norm, le 105B utilise MLA + NoPE + RoPE
Publiés le 3 mars 2026

Articles de référence

The Big LLM Architecture Comparison : explique les différences de conception entre les architectures de décodeur Dense, MoE, MLA et Hybrid
A Dream of Spring for Open-Weight LLMs : analyse complémentaire des modèles open-weight révélés début 2026, dont MiniMax, Qwen, Ling et Sarvam

2 commentaires

orange 2026-03-17

C’est sympa.

GN⁺ 2026-03-16

Avis sur Hacker News

Il est intéressant de voir qu’après plusieurs années d’expérimentations, les modèles à poids ouverts ont fini par converger vers une forme assez similaire
Il y a eu diverses tentatives, comme le routage MoE, les modèles state-space et l’attention linéaire, mais aujourd’hui on s’est fixé sur une structure de transformer dense decoder-only, combinée à RMSNorm, rotary position embedding, SwiGLU et grouped-query attention
Le principal facteur de différenciation s’est désormais déplacé vers les recettes d’entraînement et les pipelines de données
La véritable innovation de DeepSeek-R1 n’était pas l’architecture, mais le renforcement appliqué à la chaîne de raisonnement, et Llama 3 a lui aussi conservé une architecture presque identique, tout en renouvelant complètement ses données et son post-traitement
Cela rappelle l’évolution de la conception des puces, où les procédés de fabrication et la microarchitecture ont fini par compter davantage que l’ISA
Les textes de Sebastian valent toujours la lecture
Je recommande vivement son livre Build an LLM From Scratch. C’est grâce à lui que j’ai enfin vraiment compris les mécanismes des Transformers
En regardant la LLM Architecture Gallery, les différences entre modèles sont intéressantes, mais il y a eu très peu d’innovations fondamentales depuis GPT-2 au cours des sept dernières années
Même les modèles à poids ouverts d’aujourd’hui restent, vus de loin, très proches de GPT-2, avec leur structure répétée de couches attention + feed-forward
Les progrès spectaculaires récents viennent surtout du scaling et de nouvelles méthodes d’entraînement (RLVR, etc.), ce qui ressemble à un nouvel exemple du Bitter Lesson
Une visualisation vraiment superbe. Cela m’a rappelé le Neural Network Zoo que j’avais vu il y a quelque temps
Comme ce projet qui permettait d’embrasser d’un coup d’œil de nombreuses architectures de réseaux de neurones, celui-ci montre très bien la diversité des architectures
Excellent travail
Je me demande s’il existe un critère de tri. Ce serait encore mieux si l’on pouvait voir le fil de l’évolution ou la lignée des innovations sous la forme d’un arbre généalogique
De plus, visualiser l’évolution de la taille des modèles à l’échelle permettrait sans doute de ressentir plus intuitivement la vitesse des progrès
- On peut consulter cet article comme ressource montrant l’évolution de la famille DeepSeek
Vraiment génial. Merci pour le partage
Une version zoomable est disponible ici
En tant que statisticien, j’ai toujours voulu une compréhension modulaire qui relie l’idée selon laquelle « les réseaux de neurones approximent des fonctions » à la véritable ingénierie des modèles de machine learning
J’ai l’impression que ce document comble justement cet écart
Je me demande avec quel outil ce diagramme a été réalisé
Collection intéressante
Quand on compare réellement les schémas de prompt, les différences d’architecture apparaissent parfois de manière inattendue
Par exemple, une longue fenêtre de contexte ne consiste pas seulement à traiter plus de texte, elle pousse aussi à concevoir différemment la structure même des entrées
Je me demande quel est le modèle le plus simple structurellement qui reste compétitif
- La compétitivité vient davantage de la taille, des données et des données de fine-tuning que de l’architecture
  Il y a eu très peu d’innovations architecturales ces dernières années, et la plupart des changements visaient surtout à améliorer l’efficacité de l’entraînement
- Si l’on adopte une définition assez large de « compétitif », on peut même implémenter directement une chaîne de Markov
  Les modèles Transformer sont le résultat d’une progression incrémentale reposant sur l’accumulation de nombreux travaux antérieurs
En cliquant, je m’attendais à une histoire où un LLM concevait des gratte-ciel, barrages ou ponts
J’avais même préparé du pop-corn, quelle déception

Galerie des architectures LLM

Vue d’ensemble

Exemples de modèles principaux

Llama 3 8B

OLMo 2 7B

DeepSeek V3

DeepSeek R1

Gemma 3 27B

Extension des architectures MoE et Hybrid

Llama 4 Maverick

Qwen3 235B-A22B

Kimi K2

GLM-4.5 355B

GPT-OSS 20B / 120B

Architectures Hybrid et de nouvelle génération

Qwen3 Next 80B-A3B

Kimi Linear 48B-A3B

Nemotron 3 Nano / Super

Ling 2.5 1T

Derniers modèles open-weight

Qwen3.5 397B

Sarvam 30B / 105B

Articles de référence

À lire aussi

2 commentaires

Avis sur Hacker News