26 points par GN⁺ 2025-07-21 | 2 commentaires | Partager sur WhatsApp
  • Au cours des 7 dernières années, les architectures de LLM ont évolué de GPT-2 (2019) à DeepSeek-V3 et Llama 4 (2024-2025) sans changement structurel majeur, en conservant une ressemblance étonnante
  • Les modèles récents comme DeepSeek V3/R1, Llama 4 introduisent de nouvelles méthodes d’optimisation comme Mixture-of-Experts (MoE), MLA, Sliding Window Attention afin d’améliorer l’efficacité mémoire et les performances en inférence
  • Certains modèles open source comme OLMo 2, Gemma 3 attirent l’attention comme bons exemples de conception pour la recherche et le développement grâce à une publication transparente des données et à un placement original des couches de normalisation
  • Des modèles de tailles et de structures variées comme Qwen3, SmolLM3, Kimi 2 apparaissent, élargissant les choix selon les avantages, les limites et les usages visés des architectures MoE et Dense
  • La tendance commune des LLM récents combine montée en taille et en sophistication avec des améliorations structurelles orientées efficacité et une meilleure adaptation à des environnements matériels variés

Introduction

  • Depuis le prototype GPT de 2017 jusqu’à GPT-2 (2019), puis DeepSeek-V3 et Llama 4 (2024-2025), les architectures de LLM restent globalement similaires (la structure fondamentale du Transformer a peu changé)
  • Les positional embeddings sont passés de formes absolues à des approches comme RoPE, et le Multi-Head Attention évolue vers le GQA (Grouped Query Attention), plus efficace en mémoire et en calcul, mais la structure de fond reste la même
  • Les comparaisons de performances varient selon les jeux de données et les méthodes d’entraînement, ce qui rend les comparaisons architecturales directes difficiles
  • Le texte se concentre sur une analyse des évolutions structurelles des architectures des LLM ouverts récents

1. DeepSeek V3/R1

  • DeepSeek R1 (janvier 2025) a été construit sur l’architecture DeepSeek V3 (décembre 2024) et a attiré l’attention grâce à ses capacités avancées de raisonnement et à son très grand nombre de paramètres (671 milliards)
  • Architectures clés : Multi-Head Latent Attention (MLA), Mixture-of-Experts (MoE)
  • MLA : compresse Key/Value en basse dimension afin de réduire la mémoire du KV cache, avec de meilleures performances que le GQA
  • MoE : répartit le module FeedForward entre plusieurs experts, avec une structure sparse où seuls certains experts sont activés pour chaque token
    • DeepSeek V3 : 256 experts, 671B paramètres au total, seulement 9 experts utilisés en inférence (37B paramètres)
    • Un expert partagé toujours actif améliore l’apprentissage des motifs généraux
  • Caractéristiques : bien que massif (671B), il offre une bonne efficacité en inférence, un avantage de performance du MLA sur le GQA, et une grande capacité d’entraînement grâce au MoE

2. OLMo 2

  • Modèle entièrement ouvert de l’Allen Institute for AI
  • Son principal atout n’est pas tant la performance que la transparence de la conception et la publication du code
  • Points d’architecture : positionnement de RMSNorm (Post-Norm), QK-Norm
    • Les GPT classiques utilisent le Pre-Norm, tandis qu’OLMo 2 applique la normalisation après Attention/FeedForward (variante Post-Norm)
    • QK-Norm : ajoute RMSNorm aux query/key de l’Attention pour améliorer la stabilité de l’entraînement
  • Conserve une structure traditionnelle de Multi-Head Attention (MHA)
  • Semblable à Llama 3 et autres, mais avec une stratégie de normalisation différenciante

3. Gemma 3

  • LLM open majeur de Google, caractérisé par un grand vocabulary pour le support multilingue et une focalisation sur un modèle de taille 27B
  • Sliding Window Attention (fenêtre locale) réduit fortement la mémoire du KV cache
    • Gemma 2 : ratio Global/Local de 1:1, fenêtre 4k ; Gemma 3 : ratio 5:1, fenêtre réduite à 1024
    • Impact quasi nul sur les performances (perplexité)
  • Normalisation : application de RMSNorm à la fois en Pre-Norm et en Post-Norm autour du module GQA
  • Gemma 3n : allégé pour les petits appareils, avec Per-Layer Embedding (seuls les paramètres de couche résident sur le GPU) et MatFormer (utilisation partielle d’un modèle découpé)

4. Mistral Small 3.1

  • Mistral Small 3.1 24B, plus rapide que Gemma 3 27B et classé parmi les meilleurs en benchmark
  • Tokenizer personnalisé, réduction du KV cache et du nombre de couches pour minimiser la latence en inférence
  • Abandonne le sliding window attention et mise sur un GQA optimisé + FlashAttention afin de privilégier la vitesse d’inférence et l’efficacité du code

5. Llama 4

  • Adopte activement l’architecture MoE afin d’obtenir à la fois efficacité en inférence et capacité du modèle, avec une structure proche de DeepSeek-V3
  • Utilise GQA, avec un nombre d’experts MoE et une hidden size différents
    • DeepSeek-V3 : 9 experts (2 048), Llama 4 : 2 experts (8 192), 17B paramètres actifs (contre 37B pour DeepSeek)
  • Conception MoE classique avec insertion alternée de blocs MoE et de blocs Dense
  • Confirme la généralisation du MoE dans les LLM récents

6. Qwen3

  • Propose des versions Dense de tailles variées (0.6B à 32B) et des versions MoE (30B-A3B, 235B-A22B)
  • Le petit modèle (0.6B) se distingue par son efficacité en entraînement et en inférence ainsi que par son débit en tokens. Il offre d’excellentes performances parmi les LLM ultra-légers, avec aussi une excellente efficacité mémoire et une grande facilité d’entraînement
  • Dense : davantage de couches, moins de mémoire, vitesse plus lente (par rapport à Llama 3 1B)
  • MoE : Qwen3 235B-A22B a 22B paramètres actifs et n’utilise pas d’expert partagé (alors que l’ancien Qwen2.5-MoE en incluait), ce qui améliore l’efficacité
  • Qwen3 235B-A22B et DeepSeek-V3 sont très proches dans leur structure globale
  • En proposant à la fois Dense et MoE, il répond à des objectifs d’usage variés

7. SmolLM3

  • Petit modèle de l’ordre de 3B paramètres, en concurrence avec Qwen3 1.7/4B, Llama 3 3B, Gemma 3 4B
  • Son architecture est standard, mais il applique NoPE (No Positional Embedding)
    • Utilise uniquement un causal mask sans positional encoding comme RoPE
    • Améliore la généralisation de longueur (Length Generalization) sur les longues séquences
    • Structure expérimentale, appliquée seulement à certaines couches

8. Kimi 2

  • Grand modèle ouvert de 1 000 milliards de paramètres, le plus grand parmi les modèles ouverts
  • Basé sur la structure de DeepSeek-V3, avec davantage de couches MoE et un ajustement du nombre de têtes du MLA
  • Utilise l’optimiseur Muon au lieu d’AdamW pour améliorer l’efficacité de l’entraînement, avec une bonne décroissance de la loss
  • Par rapport à DeepSeek-V3, davantage d’experts MoE et moins de têtes MLA
  • S’appuie sur l’expérience de Kimi 1.5, et Kimi 2 atteint des performances de très haut niveau avec publication des open weights

Conclusion et tendances

  • Les LLM récents conservent leur structure fondamentale tout en se caractérisant par l’augmentation d’échelle des architectures, l’adoption du MoE et de multiples mécanismes d’efficacité
  • Dans le cas des modèles ouverts, la publication transparente des données, de la conception et du code accroît leur valeur pour la recherche et les usages industriels
  • Dense et MoE, MLA·GQA·Sliding Window Attention, ainsi que diverses stratégies de normalisation reflètent des priorités d’optimisation différentes selon les modèles
  • C’est une période où les choix architecturaux se diversifient selon l’environnement matériel, l’objectif d’usage et l’efficacité en entraînement comme en inférence

2 commentaires

 
tensun 2025-07-22

Le coréen semble bien fonctionner avec Qwen.

 
GN⁺ 2025-07-21
Avis Hacker News
  • Cet article offrait un niveau d’abstraction parfait et des explications détaillées pour comprendre les architectures de LLM, ce qui m’a permis d’apprendre bien plus facilement qu’en lisant les articles de recherche originaux
  • Pour les personnes entre le niveau débutant et expert, les diagrammes de cet article sont particulièrement impressionnants ; il est vraiment utile d’avoir les modèles les plus récents résumés d’un seul coup d’œil
  • À ce sujet, on peut aussi consulter un article expliquant comment DeepSeek a amélioré l’architecture des transformeurs, ainsi que certaines sections de l’article d’analyse sur la superintelligence de Meta
  • Pour ceux qui, comme moi, avaient du mal à suivre les dernières évolutions, ce genre de récapitulatif est vraiment bienvenu pour se remettre à niveau
  • J’aimerais qu’il y ait une deuxième partie qui inclue même les rumeurs sur les modèles frontier closed source comme o5, o3 Pro, o4 ou 4.5, Gemini 2.5 Pro, Grok 4 ou Claude Opus 4
  • Merci d’avoir détaillé avec autant de soin les différences entre les diverses architectures de LLM ; cela rend le tout facile à comprendre et très pédagogique
  • Franchement, comparé à l’époque de GPT-2 (2019), la vitesse des progrès actuels est difficile à croire. Aujourd’hui, il est même devenu difficile de comparer correctement les performances des LLM, tant un nouveau modèle bat les benchmarks toutes les deux semaines. J’ai été ravi de voir DeepSeek mentionné : les innovations architecturales introduites dans V3 ont fortement amélioré l’efficacité de calcul, et c’est ce qui a constitué le point décisif qui l’a distingué des autres modèles de l’époque
  • De nombreuses nouvelles architectures ont apporté beaucoup d’innovations en précision ou en vitesse, mais le problème fondamental de garantir la production d’informations exactes reste non résolu. Des approches comme le Retrieval Augmented Generation (RAG) ou les agents améliorent ce point, mais je me demande si les architectures à venir finiront par remplacer ces méthodes
    • Fondamentalement, les transformeurs sont entraînés avec comme objectif la prédiction de texte, et cette approche a des limites pour encoder la logique. Je pense que, pour réduire davantage les hallucinations, il faudra un objectif d’entraînement complètement différent
    • Le modèle ne sait pas distinguer les situations où il peut généraliser de celles où il lui faut davantage d’informations. Par exemple, il a du mal à comprendre pourquoi certaines méthodes existent alors que d’autres fonctions similaires n’existent pas. Quand j’étais enfant, j’ai un jour qualifié ma mère d’excellente cooker, sans savoir qu’on utilise des mots différents pour les machines et pour les humains. J’ai l’impression que ce type de généralisation entre mots proches s’applique aussi aux modèles
    • Des architectures récentes comme DeepSeek-V2 et Llama 3.1 montrent que des améliorations de conception seules peuvent déjà nettement améliorer la factualité. Cela tient notamment au mécanisme d’attention et à des objectifs d’entraînement spécialisés dans la réduction des hallucinations
    • Le RAG (réponse fondée sur la recherche) est structurellement simple et facile à implémenter, mais je me suis toujours demandé pourquoi il n’était toujours pas intégré aux LLM de base. Le fait qu’il ne puisse pas être directement intégré dans le modèle semble presque prouver les limites fondamentales du RAG et de ses variantes. Si c’était une méthode vraiment efficace, elle aurait été introduite comme fonctionnalité de base de l’architecture plutôt que comme ajout externe
  • J’ai demandé à Claude de lire le texte original et de proposer une nouvelle architecture
    Lien vers le résultat de Claude
    Mais je ne sais pas vraiment si ce résultat est réellement exploitable