GPT-OSS vs Qwen3 : comparaison détaillée de l’évolution de l’architecture des LLM depuis GPT-2

(magazine.sebastianraschka.com)

27 points par GN⁺ 2025-08-11 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Avec la publication par OpenAI des modèles gpt-oss-20b/120b en open weights, le premier grand LLM à poids publics d’OpenAI depuis GPT-2 en 2019 fait son apparition
Par rapport à GPT-2, les modèles gpt-oss remplacent des techniques plus anciennes comme le Dropout, l’Absolute Position Embedding ou GELU par des approches modernes et plus efficaces comme RoPE, SwiGLU et RMSNorm
L’adoption de Mixture-of-Experts (architecture modulaire d’experts), Sliding Window Attention et de la quantification MXFP4 améliore non seulement l’efficacité des performances, mais aussi de manière significative l’exécution sur un seul GPU
La comparaison avec Qwen3 met en évidence diverses différences en matière de profondeur/largeur d’architecture, nombre d’experts, biais d’attention et licence open source
gpt-oss-20b assure à la fois une utilisation pratique et une bonne extensibilité pour la recherche grâce à son allègement adapté au matériel récent et à sa fonction d’ajustement du reasoning effort

Vue d’ensemble et principales innovations

OpenAI a publié gpt-oss-20b/120b en open weights pour la première fois depuis GPT-2 en 2019
- Exécution possible du 20B sur des GPU grand public (jusqu’à 16 Go de RAM) et du 120B sur une H100 80 Go
- Optimisation MXFP4 permettant l’exécution sur un seul GPU et élargissant l’accessibilité côté grand public

Principales évolutions architecturales de GPT-2 → gpt-oss

Suppression du Dropout

GPT-2 incluait du Dropout, mais dans un environnement d’entraînement sur de très grands volumes de données en un seul epoch, cela a au contraire montré une dégradation des performances
Des recherches récentes montrent aussi que l’absence de Dropout donne de meilleures performances sur les tâches downstream des LLM

Adoption de RoPE (Rotary Position Embedding)

À la place des embeddings de position absolus, RoPE (Rotary Position Embedding) s’est imposé comme approche dominante
RoPE fait tourner l’angle des vecteurs requête/clé selon la position, ce qui fournit une information de position plus flexible et mieux généralisable

Fonction d’activation SwiGLU et adoption de GLU

L’adoption de variantes GLU comme GEGLU/SwiGLU offre une meilleure capacité de représentation avec moins de paramètres qu’un FFN classique à 2 couches
Swish est aussi plus efficace en calcul que GELU

Utilisation de Mixture-of-Experts (MoE)

À la place d’un FFN unique, le modèle utilise plusieurs réseaux d’experts (Expert), dont seule une partie est activée à chaque génération de token
Cela permet d’augmenter fortement le nombre de paramètres tout en conservant l’efficacité en inférence (sparsité), et d’accroître la capacité d’apprentissage

Introduction de Grouped Query Attention (GQA)

Le partage des clés/valeurs par rapport au Multi-Head Attention classique réduit la mémoire et le volume de calcul
L’efficacité est améliorée sans perte de performance, ce qui en fait une tendance standard sur les grands LLM

Utilisation de Sliding Window Attention

Dans certaines couches, au lieu d’utiliser tout le contexte, le modèle calcule une attention locale limitée aux 128 derniers tokens via une Sliding Window, afin de minimiser l’usage mémoire
Cela permet une inférence rapide sans baisse de performance et facilite la prise en charge de grands contextes

Adoption de RMSNorm

RMSNorm remplace LayerNorm pour améliorer l’efficacité de calcul
Au lieu de calculer moyenne et variance comme LayerNorm, RMSNorm applique la RMS (racine quadratique moyenne), ce qui réduit la charge de calcul sur GPU

Comparaison entre gpt-oss et Qwen3

Différences de taille et de structure

Qwen3 adopte une structure plus profonde (48 blocs Transformer), tandis que gpt-oss adopte une structure plus large (dimension d’embedding, nombre de heads accrus)
Les modèles profonds sont plus flexibles mais plus difficiles à entraîner, alors que les modèles larges favorisent la parallélisation de l’inférence (selon le papier Gemma 2, le modèle large garde un léger avantage sur un modèle 9B)

Différences dans la structure MoE

gpt-oss-20b : 32 grands experts, dont 4 seulement activés
Qwen3 : nombreux petits experts, 8 activés
La tendance récente va vers un plus grand nombre de petits experts, jugé plus efficace, mais gpt-oss conserve une structure avec peu de grands experts (sur les versions 20B et 120B, seuls le nombre d’experts et de blocs sont ajustés)

Attention Bias et Sinks

gpt-oss utilise des unités de biais dans l’attention (une approche devenue rare depuis l’époque de GPT-2)
- Cependant, des travaux récents montrent que l’effet reste limité sur key-proj
Un attention sink est le concept d’un token spécial toujours visé au début de la séquence, mais dans gpt-oss il est appliqué à chaque head sous forme de learned bias logit, sans modifier les tokens d’entrée

Licence et niveau d’ouverture

La licence open source Apache 2.0 autorise librement l’usage commercial et la création de modèles dérivés
Mais il ne s’agit pas d’un véritable open source au sens strict (code d’entraînement et jeux de données non publiés) : c’est un modèle open weight

Autres détails et exploitation concrète

Entraînement et optimisation

gpt-oss a été entraîné avec 2.1M H100-hours de ressources de calcul
Orientation principalement anglophone, avec un accent sur les textes STEM, le code et les connaissances générales
Application de techniques récentes : pré-entraînement + fine-tuning supervisé (Instruction), ainsi qu’une étape de reasoning basée sur le RL

Réglage du Reasoning Effort

Il est possible de définir le reasoning effort (faible/moyen/élevé) via le system prompt pour ajuster automatiquement la longueur et la précision des réponses
Les tâches simples peuvent être traitées rapidement à faible effort, tandis qu’un niveau plus élevé peut être choisi pour des raisonnements complexes

Prise en charge d’un seul GPU grâce à la quantification MXFP4

Grâce au format MXFP4, même le 20B peut fonctionner sur 16 Go de VRAM (avec un GPU récent indispensable)
Pour le 120B, 80 Go de mémoire sur une H100 suffisent pour une exécution sur un seul GPU, sans traitement distribué et avec une mise en œuvre simplifiée

Benchmarks et usage réel

gpt-oss met l’accent de l’entraînement sur le reasoning, avec une tendance possible à l’hallucination sur certaines questions de culture générale
En matière d’usage, il fait partie des meilleurs modèles ouverts actuels, et sa praticité devrait encore progresser avec l’intégration d’outils
En conditions réelles, il faudra encore évaluer l’équilibre entre exactitude et reasoning, ainsi que le comparer à d’autres modèles ouverts

Comparaison avec GPT-5

gpt-oss-120b affiche, sur benchmark, des performances proches du modèle commercial d’OpenAI (GPT-5)
Son avantage en conditions réelles reste à confirmer, mais il constitue une alternative puissante parmi les LLM récents proposés en open weights
Les benchmarks seuls ne suffisent pas à décrire entièrement la compétitivité en pratique, mais cela ouvre de grandes opportunités pour les comparaisons externes et la recherche future

Résumé

L’arrivée de la série gpt-oss établit une nouvelle référence dans le domaine des grands LLM en open weights, en comparant et analysant en détail la manière dont les innovations architecturales récentes des LLM sont réellement mises en œuvre et appliquées
Les différences et tendances par rapport à d’autres modèles récents comme Qwen3 ou GPT-5 permettent de mieux comprendre l’état de l’art utile pour les applications concrètes et la recherche

GPT-OSS vs Qwen3 : comparaison détaillée de l’évolution de l’architecture des LLM depuis GPT-2

Vue d’ensemble et principales innovations

Principales évolutions architecturales de GPT-2 → gpt-oss

Suppression du Dropout

Adoption de RoPE (Rotary Position Embedding)

Fonction d’activation SwiGLU et adoption de GLU

Utilisation de Mixture-of-Experts (MoE)

Introduction de Grouped Query Attention (GQA)

Utilisation de Sliding Window Attention

Adoption de RMSNorm

Comparaison entre gpt-oss et Qwen3

Différences de taille et de structure

Différences dans la structure MoE

Attention Bias et Sinks

Licence et niveau d’ouverture

Autres détails et exploitation concrète

Entraînement et optimisation

Réglage du Reasoning Effort

Prise en charge d’un seul GPU grâce à la quantification MXFP4

Benchmarks et usage réel

Comparaison avec GPT-5

Résumé

À lire aussi

Aucun commentaire pour le moment.