50 points par GN⁺ 2026-03-16 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Une galerie en ligne qui rassemble en un coup d’œil les schémas structurels et les spécifications clés des grands modèles de langage (LLM) les plus récents, incluant les principaux modèles publiés entre 2024 et 2026
  • Chaque modèle est présenté sous forme de tableau résumant la taille des paramètres, le type de décodeur, le mécanisme d’attention et les principaux choix de conception
  • Les contenus sont extraits des articles d’analyse comparative de Sebastian Raschka, « The Big LLM Architecture Comparison » et « A Dream of Spring for Open-Weight LLMs »
  • Les utilisateurs peuvent cliquer sur le nom d’un modèle pour accéder à sa description détaillée, ou cliquer sur l’image pour agrandir le schéma haute résolution (182 mégapixels)
  • Une base de données d’architectures de référence destinée aux chercheurs et développeurs travaillant sur les LLM open-weight, permettant d’observer en un seul endroit l’évolution récente des architectures MoE, Hybrid et Dense

Vue d’ensemble

  • Cette page est une galerie regroupant des schémas d’architecture LLM et des fiches techniques, organisée à partir des seuls diagrammes extraits de deux grands articles comparatifs de Raschka
    • Sources originales : The Big LLM Architecture Comparison, A Dream of Spring for Open-Weight LLMs
  • Chaque entrée de modèle comprend le nom du modèle, le nombre de paramètres, la date de publication, le type de décodeur, le mécanisme d’attention, les principales caractéristiques de conception et des liens vers des concepts associés
  • En cas d’information erronée ou de lien cassé, il est possible de le signaler via le traqueur d’issues GitHub
  • Face à la demande, une version poster (PNG de 56 Mo) en résolution 14570×12490 est également proposée via Zazzle

Exemples de modèles principaux

Llama 3 8B

  • Modèle basé sur un décodeur Dense de 8 milliards de paramètres, servant de pile de référence pour comparer les choix de normalisation et d’attention d’OLMo 2
  • Utilise une attention GQA + RoPE avec une structure Pre-norm conservée
  • Publié le 18 avril 2024

OLMo 2 7B

  • Modèle Dense de 7 milliards de paramètres, utilisant une attention MHA + QK-Norm
  • Architecture inside-residual post-norm pour améliorer la stabilité de l’entraînement
  • Publié le 25 novembre 2024

DeepSeek V3

  • Modèle Sparse MoE avec 37 milliards de paramètres activés sur un total de 671 milliards
  • Combine une attention MLA avec une architecture à expert partagé (shared expert)
  • Modèle emblématique ayant déclenché l’essor des grands modèles MoE ouverts

DeepSeek R1

  • Version spécialisée pour le raisonnement basée sur DeepSeek V3, conservant la même architecture
  • Publié le 20 janvier 2025, avec une structure Sparse MoE basée sur MLA

Gemma 3 27B

  • Modèle Dense de 27 milliards de paramètres, utilisant GQA + QK-Norm ainsi qu’une attention sliding-window/globale en ratio 5:1
  • Se distingue par l’extension du vocabulaire multilingue et le renforcement de l’attention locale
  • Publié le 11 mars 2025

Extension des architectures MoE et Hybrid

Llama 4 Maverick

  • Modèle Sparse MoE de Meta, basé sur l’architecture de DeepSeek V3 mais adoptant une attention GQA traditionnelle
  • 17 milliards de paramètres activés sur un total de 400 milliards
  • Alterne des blocs Dense et MoE, en réduisant le nombre d’experts tout en augmentant l’échelle

Qwen3 235B-A22B

  • Architecture Sparse MoE proche de DeepSeek V3, mais avec suppression de l’expert partagé
  • 22 milliards de paramètres activés sur un total de 235 milliards, avec GQA + QK-Norm
  • Publié le 28 avril 2025

Kimi K2

  • Modèle Sparse MoE à l’échelle du billion de paramètres, prolongeant DeepSeek V3
  • Utilise une attention MLA, avec augmentation du nombre d’experts et réduction du nombre de têtes MLA
  • Publié le 10 juillet 2025

GLM-4.5 355B

  • Modèle Sparse MoE orienté agent, adoptant l’architecture Dense-prefix MoE de DeepSeek
  • 32 milliards de paramètres activés sur un total de 355 milliards, avec GQA + QK-Norm
  • Publié le 28 juillet 2025

GPT-OSS 20B / 120B

  • Série MoE open-weight d’OpenAI, utilisant une attention croisée sliding-window/globale basée sur GQA
  • Le modèle 20B adopte une structure peu profonde et large, tandis que le modèle 120B en étend la conception
  • Publié le 4 août 2025

Architectures Hybrid et de nouvelle génération

Qwen3 Next 80B-A3B

  • Modèle Sparse Hybrid utilisant une attention mixte Gated DeltaNet + Gated Attention
  • 3 milliards de paramètres activés sur un total de 80 milliards, avec prise en charge d’un contexte de 262k
  • Publié le 9 septembre 2025

Kimi Linear 48B-A3B

  • Architecture hybride combinant Linear Attention + MLA
  • Utilise NoPE et un gating au niveau des canaux pour améliorer l’efficacité sur les longs contextes
  • Publié le 30 octobre 2025

Nemotron 3 Nano / Super

  • Modèles hybrides Transformer-State-Space Hybrid de NVIDIA
  • Nano (30B) combine Mamba-2 + MoE, tandis que Super (120B) ajoute LatentMoE + MTP
  • Publiés respectivement le 4 décembre 2025 et le 11 mars 2026

Ling 2.5 1T

  • Modèle Sparse Hybrid d’un billion de paramètres, combinant Lightning Attention + MLA
  • 63 milliards de paramètres actifs, avec une configuration d’attention linéaire/MLA au ratio 7:1
  • Publié le 15 février 2026

Derniers modèles open-weight

Qwen3.5 397B

  • Modèle phare reprenant l’attention hybride de Qwen3 Next
  • 17 milliards de paramètres activés sur un total de 397 milliards, avec 512 experts
  • Publié le 16 février 2026

Sarvam 30B / 105B

  • Modèles Sparse MoE axés sur la prise en charge des langues indiennes
  • Le 30B utilise GQA + QK-Norm, le 105B utilise MLA + NoPE + RoPE
  • Publiés le 3 mars 2026

Articles de référence

  • The Big LLM Architecture Comparison : explique les différences de conception entre les architectures de décodeur Dense, MoE, MLA et Hybrid
  • A Dream of Spring for Open-Weight LLMs : analyse complémentaire des modèles open-weight révélés début 2026, dont MiniMax, Qwen, Ling et Sarvam

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.