50 points par GN⁺ 2026-03-16 | 2 commentaires | Partager sur WhatsApp
  • Une galerie en ligne qui rassemble en un coup d’œil les schémas structurels et les spécifications clés des grands modèles de langage (LLM) les plus récents, incluant les principaux modèles publiés entre 2024 et 2026
  • Chaque modèle est présenté sous forme de tableau résumant la taille des paramètres, le type de décodeur, le mécanisme d’attention et les principaux choix de conception
  • Les contenus sont extraits des articles d’analyse comparative de Sebastian Raschka, « The Big LLM Architecture Comparison » et « A Dream of Spring for Open-Weight LLMs »
  • Les utilisateurs peuvent cliquer sur le nom d’un modèle pour accéder à sa description détaillée, ou cliquer sur l’image pour agrandir le schéma haute résolution (182 mégapixels)
  • Une base de données d’architectures de référence destinée aux chercheurs et développeurs travaillant sur les LLM open-weight, permettant d’observer en un seul endroit l’évolution récente des architectures MoE, Hybrid et Dense

Vue d’ensemble

  • Cette page est une galerie regroupant des schémas d’architecture LLM et des fiches techniques, organisée à partir des seuls diagrammes extraits de deux grands articles comparatifs de Raschka
    • Sources originales : The Big LLM Architecture Comparison, A Dream of Spring for Open-Weight LLMs
  • Chaque entrée de modèle comprend le nom du modèle, le nombre de paramètres, la date de publication, le type de décodeur, le mécanisme d’attention, les principales caractéristiques de conception et des liens vers des concepts associés
  • En cas d’information erronée ou de lien cassé, il est possible de le signaler via le traqueur d’issues GitHub
  • Face à la demande, une version poster (PNG de 56 Mo) en résolution 14570×12490 est également proposée via Zazzle

Exemples de modèles principaux

Llama 3 8B

  • Modèle basé sur un décodeur Dense de 8 milliards de paramètres, servant de pile de référence pour comparer les choix de normalisation et d’attention d’OLMo 2
  • Utilise une attention GQA + RoPE avec une structure Pre-norm conservée
  • Publié le 18 avril 2024

OLMo 2 7B

  • Modèle Dense de 7 milliards de paramètres, utilisant une attention MHA + QK-Norm
  • Architecture inside-residual post-norm pour améliorer la stabilité de l’entraînement
  • Publié le 25 novembre 2024
Publicité

DeepSeek V3

  • Modèle Sparse MoE avec 37 milliards de paramètres activés sur un total de 671 milliards
  • Combine une attention MLA avec une architecture à expert partagé (shared expert)
  • Modèle emblématique ayant déclenché l’essor des grands modèles MoE ouverts

DeepSeek R1

  • Version spécialisée pour le raisonnement basée sur DeepSeek V3, conservant la même architecture
  • Publié le 20 janvier 2025, avec une structure Sparse MoE basée sur MLA

Gemma 3 27B

  • Modèle Dense de 27 milliards de paramètres, utilisant GQA + QK-Norm ainsi qu’une attention sliding-window/globale en ratio 5:1
  • Se distingue par l’extension du vocabulaire multilingue et le renforcement de l’attention locale
  • Publié le 11 mars 2025

Extension des architectures MoE et Hybrid

Llama 4 Maverick

  • Modèle Sparse MoE de Meta, basé sur l’architecture de DeepSeek V3 mais adoptant une attention GQA traditionnelle
  • 17 milliards de paramètres activés sur un total de 400 milliards
  • Alterne des blocs Dense et MoE, en réduisant le nombre d’experts tout en augmentant l’échelle

Qwen3 235B-A22B

  • Architecture Sparse MoE proche de DeepSeek V3, mais avec suppression de l’expert partagé
  • 22 milliards de paramètres activés sur un total de 235 milliards, avec GQA + QK-Norm
  • Publié le 28 avril 2025
Publicité

Kimi K2

  • Modèle Sparse MoE à l’échelle du billion de paramètres, prolongeant DeepSeek V3
  • Utilise une attention MLA, avec augmentation du nombre d’experts et réduction du nombre de têtes MLA
  • Publié le 10 juillet 2025

GLM-4.5 355B

  • Modèle Sparse MoE orienté agent, adoptant l’architecture Dense-prefix MoE de DeepSeek
  • 32 milliards de paramètres activés sur un total de 355 milliards, avec GQA + QK-Norm
  • Publié le 28 juillet 2025

GPT-OSS 20B / 120B

  • Série MoE open-weight d’OpenAI, utilisant une attention croisée sliding-window/globale basée sur GQA
  • Le modèle 20B adopte une structure peu profonde et large, tandis que le modèle 120B en étend la conception
  • Publié le 4 août 2025

Architectures Hybrid et de nouvelle génération

Qwen3 Next 80B-A3B

  • Modèle Sparse Hybrid utilisant une attention mixte Gated DeltaNet + Gated Attention
  • 3 milliards de paramètres activés sur un total de 80 milliards, avec prise en charge d’un contexte de 262k
  • Publié le 9 septembre 2025

Kimi Linear 48B-A3B

  • Architecture hybride combinant Linear Attention + MLA
  • Utilise NoPE et un gating au niveau des canaux pour améliorer l’efficacité sur les longs contextes
  • Publié le 30 octobre 2025
Publicité

Nemotron 3 Nano / Super

  • Modèles hybrides Transformer-State-Space Hybrid de NVIDIA
  • Nano (30B) combine Mamba-2 + MoE, tandis que Super (120B) ajoute LatentMoE + MTP
  • Publiés respectivement le 4 décembre 2025 et le 11 mars 2026

Ling 2.5 1T

  • Modèle Sparse Hybrid d’un billion de paramètres, combinant Lightning Attention + MLA
  • 63 milliards de paramètres actifs, avec une configuration d’attention linéaire/MLA au ratio 7:1
  • Publié le 15 février 2026

Derniers modèles open-weight

Qwen3.5 397B

  • Modèle phare reprenant l’attention hybride de Qwen3 Next
  • 17 milliards de paramètres activés sur un total de 397 milliards, avec 512 experts
  • Publié le 16 février 2026

Sarvam 30B / 105B

  • Modèles Sparse MoE axés sur la prise en charge des langues indiennes
  • Le 30B utilise GQA + QK-Norm, le 105B utilise MLA + NoPE + RoPE
  • Publiés le 3 mars 2026

Articles de référence

  • The Big LLM Architecture Comparison : explique les différences de conception entre les architectures de décodeur Dense, MoE, MLA et Hybrid
  • A Dream of Spring for Open-Weight LLMs : analyse complémentaire des modèles open-weight révélés début 2026, dont MiniMax, Qwen, Ling et Sarvam

2 commentaires

 
orange 2026-03-17

C’est sympa.

 
GN⁺ 2026-03-16
Avis sur Hacker News
  • Il est intéressant de voir qu’après plusieurs années d’expérimentations, les modèles à poids ouverts ont fini par converger vers une forme assez similaire
    Il y a eu diverses tentatives, comme le routage MoE, les modèles state-space et l’attention linéaire, mais aujourd’hui on s’est fixé sur une structure de transformer dense decoder-only, combinée à RMSNorm, rotary position embedding, SwiGLU et grouped-query attention
    Le principal facteur de différenciation s’est désormais déplacé vers les recettes d’entraînement et les pipelines de données
    La véritable innovation de DeepSeek-R1 n’était pas l’architecture, mais le renforcement appliqué à la chaîne de raisonnement, et Llama 3 a lui aussi conservé une architecture presque identique, tout en renouvelant complètement ses données et son post-traitement
    Cela rappelle l’évolution de la conception des puces, où les procédés de fabrication et la microarchitecture ont fini par compter davantage que l’ISA

  • Les textes de Sebastian valent toujours la lecture
    Je recommande vivement son livre Build an LLM From Scratch. C’est grâce à lui que j’ai enfin vraiment compris les mécanismes des Transformers
    En regardant la LLM Architecture Gallery, les différences entre modèles sont intéressantes, mais il y a eu très peu d’innovations fondamentales depuis GPT-2 au cours des sept dernières années
    Même les modèles à poids ouverts d’aujourd’hui restent, vus de loin, très proches de GPT-2, avec leur structure répétée de couches attention + feed-forward
    Les progrès spectaculaires récents viennent surtout du scaling et de nouvelles méthodes d’entraînement (RLVR, etc.), ce qui ressemble à un nouvel exemple du Bitter Lesson

  • Une visualisation vraiment superbe. Cela m’a rappelé le Neural Network Zoo que j’avais vu il y a quelque temps
    Comme ce projet qui permettait d’embrasser d’un coup d’œil de nombreuses architectures de réseaux de neurones, celui-ci montre très bien la diversité des architectures

  • Excellent travail
    Je me demande s’il existe un critère de tri. Ce serait encore mieux si l’on pouvait voir le fil de l’évolution ou la lignée des innovations sous la forme d’un arbre généalogique
    De plus, visualiser l’évolution de la taille des modèles à l’échelle permettrait sans doute de ressentir plus intuitivement la vitesse des progrès

    • On peut consulter cet article comme ressource montrant l’évolution de la famille DeepSeek
  • Vraiment génial. Merci pour le partage
    Une version zoomable est disponible ici

  • En tant que statisticien, j’ai toujours voulu une compréhension modulaire qui relie l’idée selon laquelle « les réseaux de neurones approximent des fonctions » à la véritable ingénierie des modèles de machine learning
    J’ai l’impression que ce document comble justement cet écart

  • Je me demande avec quel outil ce diagramme a été réalisé

  • Collection intéressante
    Quand on compare réellement les schémas de prompt, les différences d’architecture apparaissent parfois de manière inattendue
    Par exemple, une longue fenêtre de contexte ne consiste pas seulement à traiter plus de texte, elle pousse aussi à concevoir différemment la structure même des entrées

  • Je me demande quel est le modèle le plus simple structurellement qui reste compétitif

    • La compétitivité vient davantage de la taille, des données et des données de fine-tuning que de l’architecture
      Il y a eu très peu d’innovations architecturales ces dernières années, et la plupart des changements visaient surtout à améliorer l’efficacité de l’entraînement
    • Si l’on adopte une définition assez large de « compétitif », on peut même implémenter directement une chaîne de Markov
      Les modèles Transformer sont le résultat d’une progression incrémentale reposant sur l’accumulation de nombreux travaux antérieurs
  • En cliquant, je m’attendais à une histoire où un LLM concevait des gratte-ciel, barrages ou ponts
    J’avais même préparé du pop-corn, quelle déception