- Au cours des 7 dernières années, les architectures de LLM ont évolué de GPT-2 (2019) à DeepSeek-V3 et Llama 4 (2024-2025) sans changement structurel majeur, en conservant une ressemblance étonnante
- Les modèles récents comme DeepSeek V3/R1, Llama 4 introduisent de nouvelles méthodes d’optimisation comme Mixture-of-Experts (MoE), MLA, Sliding Window Attention afin d’améliorer l’efficacité mémoire et les performances en inférence
- Certains modèles open source comme OLMo 2, Gemma 3 attirent l’attention comme bons exemples de conception pour la recherche et le développement grâce à une publication transparente des données et à un placement original des couches de normalisation
- Des modèles de tailles et de structures variées comme Qwen3, SmolLM3, Kimi 2 apparaissent, élargissant les choix selon les avantages, les limites et les usages visés des architectures MoE et Dense
- La tendance commune des LLM récents combine montée en taille et en sophistication avec des améliorations structurelles orientées efficacité et une meilleure adaptation à des environnements matériels variés
Introduction
- Depuis le prototype GPT de 2017 jusqu’à GPT-2 (2019), puis DeepSeek-V3 et Llama 4 (2024-2025), les architectures de LLM restent globalement similaires (la structure fondamentale du Transformer a peu changé)
- Les positional embeddings sont passés de formes absolues à des approches comme RoPE, et le Multi-Head Attention évolue vers le GQA (Grouped Query Attention), plus efficace en mémoire et en calcul, mais la structure de fond reste la même
- Les comparaisons de performances varient selon les jeux de données et les méthodes d’entraînement, ce qui rend les comparaisons architecturales directes difficiles
- Le texte se concentre sur une analyse des évolutions structurelles des architectures des LLM ouverts récents
1. DeepSeek V3/R1
- DeepSeek R1 (janvier 2025) a été construit sur l’architecture DeepSeek V3 (décembre 2024) et a attiré l’attention grâce à ses capacités avancées de raisonnement et à son très grand nombre de paramètres (671 milliards)
- Architectures clés : Multi-Head Latent Attention (MLA), Mixture-of-Experts (MoE)
- MLA : compresse Key/Value en basse dimension afin de réduire la mémoire du KV cache, avec de meilleures performances que le GQA
- MoE : répartit le module FeedForward entre plusieurs experts, avec une structure sparse où seuls certains experts sont activés pour chaque token
- DeepSeek V3 : 256 experts, 671B paramètres au total, seulement 9 experts utilisés en inférence (37B paramètres)
- Un expert partagé toujours actif améliore l’apprentissage des motifs généraux
- Caractéristiques : bien que massif (671B), il offre une bonne efficacité en inférence, un avantage de performance du MLA sur le GQA, et une grande capacité d’entraînement grâce au MoE
2. OLMo 2
- Modèle entièrement ouvert de l’Allen Institute for AI
- Son principal atout n’est pas tant la performance que la transparence de la conception et la publication du code
- Points d’architecture : positionnement de RMSNorm (Post-Norm), QK-Norm
- Les GPT classiques utilisent le Pre-Norm, tandis qu’OLMo 2 applique la normalisation après Attention/FeedForward (variante Post-Norm)
- QK-Norm : ajoute RMSNorm aux query/key de l’Attention pour améliorer la stabilité de l’entraînement
- Conserve une structure traditionnelle de Multi-Head Attention (MHA)
- Semblable à Llama 3 et autres, mais avec une stratégie de normalisation différenciante
3. Gemma 3
- LLM open majeur de Google, caractérisé par un grand vocabulary pour le support multilingue et une focalisation sur un modèle de taille 27B
- Sliding Window Attention (fenêtre locale) réduit fortement la mémoire du KV cache
- Gemma 2 : ratio Global/Local de 1:1, fenêtre 4k ; Gemma 3 : ratio 5:1, fenêtre réduite à 1024
- Impact quasi nul sur les performances (perplexité)
- Normalisation : application de RMSNorm à la fois en Pre-Norm et en Post-Norm autour du module GQA
- Gemma 3n : allégé pour les petits appareils, avec Per-Layer Embedding (seuls les paramètres de couche résident sur le GPU) et MatFormer (utilisation partielle d’un modèle découpé)
4. Mistral Small 3.1
- Mistral Small 3.1 24B, plus rapide que Gemma 3 27B et classé parmi les meilleurs en benchmark
- Tokenizer personnalisé, réduction du KV cache et du nombre de couches pour minimiser la latence en inférence
- Abandonne le sliding window attention et mise sur un GQA optimisé + FlashAttention afin de privilégier la vitesse d’inférence et l’efficacité du code
5. Llama 4
- Adopte activement l’architecture MoE afin d’obtenir à la fois efficacité en inférence et capacité du modèle, avec une structure proche de DeepSeek-V3
- Utilise GQA, avec un nombre d’experts MoE et une hidden size différents
- DeepSeek-V3 : 9 experts (2 048), Llama 4 : 2 experts (8 192), 17B paramètres actifs (contre 37B pour DeepSeek)
- Conception MoE classique avec insertion alternée de blocs MoE et de blocs Dense
- Confirme la généralisation du MoE dans les LLM récents
6. Qwen3
- Propose des versions Dense de tailles variées (0.6B à 32B) et des versions MoE (30B-A3B, 235B-A22B)
- Le petit modèle (0.6B) se distingue par son efficacité en entraînement et en inférence ainsi que par son débit en tokens. Il offre d’excellentes performances parmi les LLM ultra-légers, avec aussi une excellente efficacité mémoire et une grande facilité d’entraînement
- Dense : davantage de couches, moins de mémoire, vitesse plus lente (par rapport à Llama 3 1B)
- MoE : Qwen3 235B-A22B a 22B paramètres actifs et n’utilise pas d’expert partagé (alors que l’ancien Qwen2.5-MoE en incluait), ce qui améliore l’efficacité
- Qwen3 235B-A22B et DeepSeek-V3 sont très proches dans leur structure globale
- En proposant à la fois Dense et MoE, il répond à des objectifs d’usage variés
7. SmolLM3
- Petit modèle de l’ordre de 3B paramètres, en concurrence avec Qwen3 1.7/4B, Llama 3 3B, Gemma 3 4B
- Son architecture est standard, mais il applique NoPE (No Positional Embedding)
- Utilise uniquement un causal mask sans positional encoding comme RoPE
- Améliore la généralisation de longueur (Length Generalization) sur les longues séquences
- Structure expérimentale, appliquée seulement à certaines couches
8. Kimi 2
- Grand modèle ouvert de 1 000 milliards de paramètres, le plus grand parmi les modèles ouverts
- Basé sur la structure de DeepSeek-V3, avec davantage de couches MoE et un ajustement du nombre de têtes du MLA
- Utilise l’optimiseur Muon au lieu d’AdamW pour améliorer l’efficacité de l’entraînement, avec une bonne décroissance de la loss
- Par rapport à DeepSeek-V3, davantage d’experts MoE et moins de têtes MLA
- S’appuie sur l’expérience de Kimi 1.5, et Kimi 2 atteint des performances de très haut niveau avec publication des open weights
Conclusion et tendances
- Les LLM récents conservent leur structure fondamentale tout en se caractérisant par l’augmentation d’échelle des architectures, l’adoption du MoE et de multiples mécanismes d’efficacité
- Dans le cas des modèles ouverts, la publication transparente des données, de la conception et du code accroît leur valeur pour la recherche et les usages industriels
- Dense et MoE, MLA·GQA·Sliding Window Attention, ainsi que diverses stratégies de normalisation reflètent des priorités d’optimisation différentes selon les modèles
- C’est une période où les choix architecturaux se diversifient selon l’environnement matériel, l’objectif d’usage et l’efficacité en entraînement comme en inférence
2 commentaires
Le coréen semble bien fonctionner avec Qwen.
Avis Hacker News
cooker, sans savoir qu’on utilise des mots différents pour les machines et pour les humains. J’ai l’impression que ce type de généralisation entre mots proches s’applique aussi aux modèlesLien vers le résultat de Claude
Mais je ne sais pas vraiment si ce résultat est réellement exploitable