- Avec la publication par OpenAI des modèles gpt-oss-20b/120b en open weights, le premier grand LLM à poids publics d’OpenAI depuis GPT-2 en 2019 fait son apparition
- Par rapport à GPT-2, les modèles gpt-oss remplacent des techniques plus anciennes comme le Dropout, l’Absolute Position Embedding ou GELU par des approches modernes et plus efficaces comme RoPE, SwiGLU et RMSNorm
- L’adoption de Mixture-of-Experts (architecture modulaire d’experts), Sliding Window Attention et de la quantification MXFP4 améliore non seulement l’efficacité des performances, mais aussi de manière significative l’exécution sur un seul GPU
- La comparaison avec Qwen3 met en évidence diverses différences en matière de profondeur/largeur d’architecture, nombre d’experts, biais d’attention et licence open source
- gpt-oss-20b assure à la fois une utilisation pratique et une bonne extensibilité pour la recherche grâce à son allègement adapté au matériel récent et à sa fonction d’ajustement du reasoning effort
Vue d’ensemble et principales innovations
- OpenAI a publié gpt-oss-20b/120b en open weights pour la première fois depuis GPT-2 en 2019
- Exécution possible du 20B sur des GPU grand public (jusqu’à 16 Go de RAM) et du 120B sur une H100 80 Go
- Optimisation MXFP4 permettant l’exécution sur un seul GPU et élargissant l’accessibilité côté grand public
Principales évolutions architecturales de GPT-2 → gpt-oss
Suppression du Dropout
- GPT-2 incluait du Dropout, mais dans un environnement d’entraînement sur de très grands volumes de données en un seul epoch, cela a au contraire montré une dégradation des performances
- Des recherches récentes montrent aussi que l’absence de Dropout donne de meilleures performances sur les tâches downstream des LLM
Adoption de RoPE (Rotary Position Embedding)
- À la place des embeddings de position absolus, RoPE (Rotary Position Embedding) s’est imposé comme approche dominante
- RoPE fait tourner l’angle des vecteurs requête/clé selon la position, ce qui fournit une information de position plus flexible et mieux généralisable
Fonction d’activation SwiGLU et adoption de GLU
- L’adoption de variantes GLU comme GEGLU/SwiGLU offre une meilleure capacité de représentation avec moins de paramètres qu’un FFN classique à 2 couches
- Swish est aussi plus efficace en calcul que GELU
Utilisation de Mixture-of-Experts (MoE)
- À la place d’un FFN unique, le modèle utilise plusieurs réseaux d’experts (Expert), dont seule une partie est activée à chaque génération de token
- Cela permet d’augmenter fortement le nombre de paramètres tout en conservant l’efficacité en inférence (sparsité), et d’accroître la capacité d’apprentissage
Introduction de Grouped Query Attention (GQA)
- Le partage des clés/valeurs par rapport au Multi-Head Attention classique réduit la mémoire et le volume de calcul
- L’efficacité est améliorée sans perte de performance, ce qui en fait une tendance standard sur les grands LLM
Utilisation de Sliding Window Attention
- Dans certaines couches, au lieu d’utiliser tout le contexte, le modèle calcule une attention locale limitée aux 128 derniers tokens via une Sliding Window, afin de minimiser l’usage mémoire
- Cela permet une inférence rapide sans baisse de performance et facilite la prise en charge de grands contextes
Adoption de RMSNorm
- RMSNorm remplace LayerNorm pour améliorer l’efficacité de calcul
- Au lieu de calculer moyenne et variance comme LayerNorm, RMSNorm applique la RMS (racine quadratique moyenne), ce qui réduit la charge de calcul sur GPU
Comparaison entre gpt-oss et Qwen3
Différences de taille et de structure
- Qwen3 adopte une structure plus profonde (48 blocs Transformer), tandis que gpt-oss adopte une structure plus large (dimension d’embedding, nombre de heads accrus)
- Les modèles profonds sont plus flexibles mais plus difficiles à entraîner, alors que les modèles larges favorisent la parallélisation de l’inférence (selon le papier Gemma 2, le modèle large garde un léger avantage sur un modèle 9B)
Différences dans la structure MoE
- gpt-oss-20b : 32 grands experts, dont 4 seulement activés
- Qwen3 : nombreux petits experts, 8 activés
- La tendance récente va vers un plus grand nombre de petits experts, jugé plus efficace, mais gpt-oss conserve une structure avec peu de grands experts (sur les versions 20B et 120B, seuls le nombre d’experts et de blocs sont ajustés)
Attention Bias et Sinks
- gpt-oss utilise des unités de biais dans l’attention (une approche devenue rare depuis l’époque de GPT-2)
- Cependant, des travaux récents montrent que l’effet reste limité sur key-proj
- Un attention sink est le concept d’un token spécial toujours visé au début de la séquence, mais dans gpt-oss il est appliqué à chaque head sous forme de learned bias logit, sans modifier les tokens d’entrée
Licence et niveau d’ouverture
- La licence open source Apache 2.0 autorise librement l’usage commercial et la création de modèles dérivés
- Mais il ne s’agit pas d’un véritable open source au sens strict (code d’entraînement et jeux de données non publiés) : c’est un modèle open weight
Autres détails et exploitation concrète
Entraînement et optimisation
- gpt-oss a été entraîné avec 2.1M H100-hours de ressources de calcul
- Orientation principalement anglophone, avec un accent sur les textes STEM, le code et les connaissances générales
- Application de techniques récentes : pré-entraînement + fine-tuning supervisé (Instruction), ainsi qu’une étape de reasoning basée sur le RL
Réglage du Reasoning Effort
- Il est possible de définir le reasoning effort (faible/moyen/élevé) via le system prompt pour ajuster automatiquement la longueur et la précision des réponses
- Les tâches simples peuvent être traitées rapidement à faible effort, tandis qu’un niveau plus élevé peut être choisi pour des raisonnements complexes
Prise en charge d’un seul GPU grâce à la quantification MXFP4
- Grâce au format MXFP4, même le 20B peut fonctionner sur 16 Go de VRAM (avec un GPU récent indispensable)
- Pour le 120B, 80 Go de mémoire sur une H100 suffisent pour une exécution sur un seul GPU, sans traitement distribué et avec une mise en œuvre simplifiée
Benchmarks et usage réel
- gpt-oss met l’accent de l’entraînement sur le reasoning, avec une tendance possible à l’hallucination sur certaines questions de culture générale
- En matière d’usage, il fait partie des meilleurs modèles ouverts actuels, et sa praticité devrait encore progresser avec l’intégration d’outils
- En conditions réelles, il faudra encore évaluer l’équilibre entre exactitude et reasoning, ainsi que le comparer à d’autres modèles ouverts
Comparaison avec GPT-5
- gpt-oss-120b affiche, sur benchmark, des performances proches du modèle commercial d’OpenAI (GPT-5)
- Son avantage en conditions réelles reste à confirmer, mais il constitue une alternative puissante parmi les LLM récents proposés en open weights
- Les benchmarks seuls ne suffisent pas à décrire entièrement la compétitivité en pratique, mais cela ouvre de grandes opportunités pour les comparaisons externes et la recherche future
Résumé
- L’arrivée de la série gpt-oss établit une nouvelle référence dans le domaine des grands LLM en open weights, en comparant et analysant en détail la manière dont les innovations architecturales récentes des LLM sont réellement mises en œuvre et appliquées
- Les différences et tendances par rapport à d’autres modèles récents comme Qwen3 ou GPT-5 permettent de mieux comprendre l’état de l’art utile pour les applications concrètes et la recherche
Aucun commentaire pour le moment.