GPT-OSS vs Qwen3 : comparaison détaillée de l’évolution de l’architecture des LLM depuis GPT-2
(magazine.sebastianraschka.com)- Avec la publication par OpenAI des modèles gpt-oss-20b/120b en open weights, le premier grand LLM à poids publics d’OpenAI depuis GPT-2 en 2019 fait son apparition
- Par rapport à GPT-2, les modèles gpt-oss remplacent des techniques plus anciennes comme le Dropout, l’Absolute Position Embedding ou GELU par des approches modernes et plus efficaces comme RoPE, SwiGLU et RMSNorm
- L’adoption de Mixture-of-Experts (architecture modulaire d’experts), Sliding Window Attention et de la quantification MXFP4 améliore non seulement l’efficacité des performances, mais aussi de manière significative l’exécution sur un seul GPU
- La comparaison avec Qwen3 met en évidence diverses différences en matière de profondeur/largeur d’architecture, nombre d’experts, biais d’attention et licence open source
- gpt-oss-20b assure à la fois une utilisation pratique et une bonne extensibilité pour la recherche grâce à son allègement adapté au matériel récent et à sa fonction d’ajustement du reasoning effort
Vue d’ensemble et principales innovations
- OpenAI a publié gpt-oss-20b/120b en open weights pour la première fois depuis GPT-2 en 2019
- Exécution possible du 20B sur des GPU grand public (jusqu’à 16 Go de RAM) et du 120B sur une H100 80 Go
- Optimisation MXFP4 permettant l’exécution sur un seul GPU et élargissant l’accessibilité côté grand public
Principales évolutions architecturales de GPT-2 → gpt-oss
Suppression du Dropout
- GPT-2 incluait du Dropout, mais dans un environnement d’entraînement sur de très grands volumes de données en un seul epoch, cela a au contraire montré une dégradation des performances
- Des recherches récentes montrent aussi que l’absence de Dropout donne de meilleures performances sur les tâches downstream des LLM
Adoption de RoPE (Rotary Position Embedding)
- À la place des embeddings de position absolus, RoPE (Rotary Position Embedding) s’est imposé comme approche dominante
- RoPE fait tourner l’angle des vecteurs requête/clé selon la position, ce qui fournit une information de position plus flexible et mieux généralisable
Fonction d’activation SwiGLU et adoption de GLU
- L’adoption de variantes GLU comme GEGLU/SwiGLU offre une meilleure capacité de représentation avec moins de paramètres qu’un FFN classique à 2 couches
- Swish est aussi plus efficace en calcul que GELU
Utilisation de Mixture-of-Experts (MoE)
- À la place d’un FFN unique, le modèle utilise plusieurs réseaux d’experts (Expert), dont seule une partie est activée à chaque génération de token
- Cela permet d’augmenter fortement le nombre de paramètres tout en conservant l’efficacité en inférence (sparsité), et d’accroître la capacité d’apprentissage
Introduction de Grouped Query Attention (GQA)
- Le partage des clés/valeurs par rapport au Multi-Head Attention classique réduit la mémoire et le volume de calcul
- L’efficacité est améliorée sans perte de performance, ce qui en fait une tendance standard sur les grands LLM
Utilisation de Sliding Window Attention
- Dans certaines couches, au lieu d’utiliser tout le contexte, le modèle calcule une attention locale limitée aux 128 derniers tokens via une Sliding Window, afin de minimiser l’usage mémoire
- Cela permet une inférence rapide sans baisse de performance et facilite la prise en charge de grands contextes
Adoption de RMSNorm
- RMSNorm remplace LayerNorm pour améliorer l’efficacité de calcul
- Au lieu de calculer moyenne et variance comme LayerNorm, RMSNorm applique la RMS (racine quadratique moyenne), ce qui réduit la charge de calcul sur GPU
Comparaison entre gpt-oss et Qwen3
Différences de taille et de structure
- Qwen3 adopte une structure plus profonde (48 blocs Transformer), tandis que gpt-oss adopte une structure plus large (dimension d’embedding, nombre de heads accrus)
- Les modèles profonds sont plus flexibles mais plus difficiles à entraîner, alors que les modèles larges favorisent la parallélisation de l’inférence (selon le papier Gemma 2, le modèle large garde un léger avantage sur un modèle 9B)
Différences dans la structure MoE
- gpt-oss-20b : 32 grands experts, dont 4 seulement activés
- Qwen3 : nombreux petits experts, 8 activés
- La tendance récente va vers un plus grand nombre de petits experts, jugé plus efficace, mais gpt-oss conserve une structure avec peu de grands experts (sur les versions 20B et 120B, seuls le nombre d’experts et de blocs sont ajustés)
Attention Bias et Sinks
- gpt-oss utilise des unités de biais dans l’attention (une approche devenue rare depuis l’époque de GPT-2)
- Cependant, des travaux récents montrent que l’effet reste limité sur key-proj
- Un attention sink est le concept d’un token spécial toujours visé au début de la séquence, mais dans gpt-oss il est appliqué à chaque head sous forme de learned bias logit, sans modifier les tokens d’entrée
Licence et niveau d’ouverture
- La licence open source Apache 2.0 autorise librement l’usage commercial et la création de modèles dérivés
- Mais il ne s’agit pas d’un véritable open source au sens strict (code d’entraînement et jeux de données non publiés) : c’est un modèle open weight
Autres détails et exploitation concrète
Entraînement et optimisation
- gpt-oss a été entraîné avec 2.1M H100-hours de ressources de calcul
- Orientation principalement anglophone, avec un accent sur les textes STEM, le code et les connaissances générales
- Application de techniques récentes : pré-entraînement + fine-tuning supervisé (Instruction), ainsi qu’une étape de reasoning basée sur le RL
Réglage du Reasoning Effort
- Il est possible de définir le reasoning effort (faible/moyen/élevé) via le system prompt pour ajuster automatiquement la longueur et la précision des réponses
- Les tâches simples peuvent être traitées rapidement à faible effort, tandis qu’un niveau plus élevé peut être choisi pour des raisonnements complexes
Prise en charge d’un seul GPU grâce à la quantification MXFP4
- Grâce au format MXFP4, même le 20B peut fonctionner sur 16 Go de VRAM (avec un GPU récent indispensable)
- Pour le 120B, 80 Go de mémoire sur une H100 suffisent pour une exécution sur un seul GPU, sans traitement distribué et avec une mise en œuvre simplifiée
Benchmarks et usage réel
- gpt-oss met l’accent de l’entraînement sur le reasoning, avec une tendance possible à l’hallucination sur certaines questions de culture générale
- En matière d’usage, il fait partie des meilleurs modèles ouverts actuels, et sa praticité devrait encore progresser avec l’intégration d’outils
- En conditions réelles, il faudra encore évaluer l’équilibre entre exactitude et reasoning, ainsi que le comparer à d’autres modèles ouverts
Comparaison avec GPT-5
- gpt-oss-120b affiche, sur benchmark, des performances proches du modèle commercial d’OpenAI (GPT-5)
- Son avantage en conditions réelles reste à confirmer, mais il constitue une alternative puissante parmi les LLM récents proposés en open weights
- Les benchmarks seuls ne suffisent pas à décrire entièrement la compétitivité en pratique, mais cela ouvre de grandes opportunités pour les comparaisons externes et la recherche future
Résumé
- L’arrivée de la série gpt-oss établit une nouvelle référence dans le domaine des grands LLM en open weights, en comparant et analysant en détail la manière dont les innovations architecturales récentes des LLM sont réellement mises en œuvre et appliquées
- Les différences et tendances par rapport à d’autres modèles récents comme Qwen3 ou GPT-5 permettent de mieux comprendre l’état de l’art utile pour les applications concrètes et la recherche
1 commentaires
Commentaires Hacker News
J’ai constaté que Qwen3 est nettement meilleur en tests locaux. La version 32B paramètres respecte presque parfaitement les prompts et produit des résultats naturels. À l’inverse, simplebench gpt-oss (120B) se montre peu performant sur les puzzles logiques. Je pense que cet écart vient de la méthode d’entraînement, de la dimension du modèle, et du choix entre peu de grands experts vs beaucoup de petits experts
sqrt(nombre de têtes actives * nombre total de paramètres). Par exemple,sqrt(120*5) ~= 24, donc GPT-OSS 120B offre en réalité des performances de l’ordre de 24B avec une vitesse correspondant à un modèle bien plus petitLes billets de blog de Sebastian Raschk sont une mine d’informations. J’utilise get-oss et les modèles qwen3 en local avec Ollama et LM Studio, et les grands modèles via des API commerciales. get-oss donne de bons résultats quand on lui passe beaucoup d’informations de contexte dans le prompt, et qwen3 est tout simplement excellent. Jusqu’à il y a 3 ans, je comprenais assez bien le machine learning pour implémenter moi-même des réseaux de neurones, des GAN, des RNN, des LSTM, etc., mais les LLM actuels ne sont plus assez accessibles pour être développés directement, et c’est dommage. Je regarde aussi le livre de Sebastian Raschk, mais je doute d’aller jusqu’au bout
Sur un GPU 3090 local, j’ai fait tourner qwen3 coder instruct 30b-a3b exl3 q6, et je lui ai fait créer une page d’exemple, lancer un serveur, détecter qu’un serveur tournait déjà, le stopper lui-même (en demandant les autorisations), puis le relancer, retrouver automatiquement l’IP et l’ouvrir dans le navigateur. Ce n’est plus juste une simple démo : c’est désormais une aide concrètement utile même pour un junior ou un stagiaire
D’après mon expérience, qwen3-coder est de loin supérieur. J’ai aussi installé gpt-oss:20b, mais quand je lui demande de résumer du code, qwen3 répond en quelques secondes alors que gpt-oss ne fait rien pendant plus de 5 minutes, donc j’interromps. Du coup, je n’utilise que qwen3. Si je n’obtiens pas la réponse voulue, j’utilise un moteur de recherche ou Perplexity. J’ai une 3080 10GB, un Ryzen 3600x et 32GB de RAM. Qwen3-coder est le meilleur que j’aie utilisé jusqu’à présent
Je trouve intéressant qu’en ce moment les LLM open weight aient des architectures si similaires, et que l’innovation se produise surtout côté données ou RL. Dans les grandes organisations ML d’autrefois, l’ajustement de l’architecture paraissait être le plus important, mais la réalité semble différente
J’utilise vraiment très bien le modèle Qwen3 4B en local. Je n’utilise presque plus de modèles en ligne, et même la recherche web est beaucoup mieux ciblée. Je ne lui fais pas totalement confiance, mais dans l’ensemble c’est bien. Je suis convaincu que ce type de modèle open source va changer la donne pour l’automatisation locale des connaissances
Dans LM Arena, le meilleur modèle non fondé sur un pur Transformer est Jamba (architecture hybride entre Transformers et modèles state space, 96e). Les hunyuan-turbos de Tencent sont également hybrides et sont 22e. Voir l’article arXiv
Les LLM s’entraînent généralement sur un très grand dataset une seule fois seulement (une seule époque). C’est un cadre différent de celui du Dropout, qui supposait des entraînements répétés sur plusieurs centaines d’époques
Je me demande jusqu’où les modèles publiés par les grands laboratoires pourraient progresser avec davantage d’entraînement. Par exemple, si GPT-OSS a été entraîné pendant 2,1 millions d’heures, quel gain obtiendrait-on en doublant ce chiffre ?
En accédant au site, j’obtiens le message d’erreur « Votre connexion n’est pas sécurisée ». Il est indiqué que « le site magazine.sebastianraschka.com utilise HSTS et ne peut pas être visité pour le moment ». J’utilise la dernière version de Chrome sous Ubuntu.