27 points par GN⁺ 2025-08-11 | 1 commentaires | Partager sur WhatsApp
  • Avec la publication par OpenAI des modèles gpt-oss-20b/120b en open weights, le premier grand LLM à poids publics d’OpenAI depuis GPT-2 en 2019 fait son apparition
  • Par rapport à GPT-2, les modèles gpt-oss remplacent des techniques plus anciennes comme le Dropout, l’Absolute Position Embedding ou GELU par des approches modernes et plus efficaces comme RoPE, SwiGLU et RMSNorm
  • L’adoption de Mixture-of-Experts (architecture modulaire d’experts), Sliding Window Attention et de la quantification MXFP4 améliore non seulement l’efficacité des performances, mais aussi de manière significative l’exécution sur un seul GPU
  • La comparaison avec Qwen3 met en évidence diverses différences en matière de profondeur/largeur d’architecture, nombre d’experts, biais d’attention et licence open source
  • gpt-oss-20b assure à la fois une utilisation pratique et une bonne extensibilité pour la recherche grâce à son allègement adapté au matériel récent et à sa fonction d’ajustement du reasoning effort

Vue d’ensemble et principales innovations

  • OpenAI a publié gpt-oss-20b/120b en open weights pour la première fois depuis GPT-2 en 2019
    • Exécution possible du 20B sur des GPU grand public (jusqu’à 16 Go de RAM) et du 120B sur une H100 80 Go
    • Optimisation MXFP4 permettant l’exécution sur un seul GPU et élargissant l’accessibilité côté grand public

Principales évolutions architecturales de GPT-2 → gpt-oss

Suppression du Dropout

  • GPT-2 incluait du Dropout, mais dans un environnement d’entraînement sur de très grands volumes de données en un seul epoch, cela a au contraire montré une dégradation des performances
  • Des recherches récentes montrent aussi que l’absence de Dropout donne de meilleures performances sur les tâches downstream des LLM

Adoption de RoPE (Rotary Position Embedding)

  • À la place des embeddings de position absolus, RoPE (Rotary Position Embedding) s’est imposé comme approche dominante
  • RoPE fait tourner l’angle des vecteurs requête/clé selon la position, ce qui fournit une information de position plus flexible et mieux généralisable

Fonction d’activation SwiGLU et adoption de GLU

  • L’adoption de variantes GLU comme GEGLU/SwiGLU offre une meilleure capacité de représentation avec moins de paramètres qu’un FFN classique à 2 couches
  • Swish est aussi plus efficace en calcul que GELU

Utilisation de Mixture-of-Experts (MoE)

  • À la place d’un FFN unique, le modèle utilise plusieurs réseaux d’experts (Expert), dont seule une partie est activée à chaque génération de token
  • Cela permet d’augmenter fortement le nombre de paramètres tout en conservant l’efficacité en inférence (sparsité), et d’accroître la capacité d’apprentissage

Introduction de Grouped Query Attention (GQA)

  • Le partage des clés/valeurs par rapport au Multi-Head Attention classique réduit la mémoire et le volume de calcul
  • L’efficacité est améliorée sans perte de performance, ce qui en fait une tendance standard sur les grands LLM

Utilisation de Sliding Window Attention

  • Dans certaines couches, au lieu d’utiliser tout le contexte, le modèle calcule une attention locale limitée aux 128 derniers tokens via une Sliding Window, afin de minimiser l’usage mémoire
  • Cela permet une inférence rapide sans baisse de performance et facilite la prise en charge de grands contextes

Adoption de RMSNorm

  • RMSNorm remplace LayerNorm pour améliorer l’efficacité de calcul
  • Au lieu de calculer moyenne et variance comme LayerNorm, RMSNorm applique la RMS (racine quadratique moyenne), ce qui réduit la charge de calcul sur GPU

Comparaison entre gpt-oss et Qwen3

Différences de taille et de structure

  • Qwen3 adopte une structure plus profonde (48 blocs Transformer), tandis que gpt-oss adopte une structure plus large (dimension d’embedding, nombre de heads accrus)
  • Les modèles profonds sont plus flexibles mais plus difficiles à entraîner, alors que les modèles larges favorisent la parallélisation de l’inférence (selon le papier Gemma 2, le modèle large garde un léger avantage sur un modèle 9B)

Différences dans la structure MoE

  • gpt-oss-20b : 32 grands experts, dont 4 seulement activés
  • Qwen3 : nombreux petits experts, 8 activés
  • La tendance récente va vers un plus grand nombre de petits experts, jugé plus efficace, mais gpt-oss conserve une structure avec peu de grands experts (sur les versions 20B et 120B, seuls le nombre d’experts et de blocs sont ajustés)

Attention Bias et Sinks

  • gpt-oss utilise des unités de biais dans l’attention (une approche devenue rare depuis l’époque de GPT-2)
    • Cependant, des travaux récents montrent que l’effet reste limité sur key-proj
  • Un attention sink est le concept d’un token spécial toujours visé au début de la séquence, mais dans gpt-oss il est appliqué à chaque head sous forme de learned bias logit, sans modifier les tokens d’entrée

Licence et niveau d’ouverture

  • La licence open source Apache 2.0 autorise librement l’usage commercial et la création de modèles dérivés
  • Mais il ne s’agit pas d’un véritable open source au sens strict (code d’entraînement et jeux de données non publiés) : c’est un modèle open weight

Autres détails et exploitation concrète

Entraînement et optimisation

  • gpt-oss a été entraîné avec 2.1M H100-hours de ressources de calcul
  • Orientation principalement anglophone, avec un accent sur les textes STEM, le code et les connaissances générales
  • Application de techniques récentes : pré-entraînement + fine-tuning supervisé (Instruction), ainsi qu’une étape de reasoning basée sur le RL

Réglage du Reasoning Effort

  • Il est possible de définir le reasoning effort (faible/moyen/élevé) via le system prompt pour ajuster automatiquement la longueur et la précision des réponses
  • Les tâches simples peuvent être traitées rapidement à faible effort, tandis qu’un niveau plus élevé peut être choisi pour des raisonnements complexes

Prise en charge d’un seul GPU grâce à la quantification MXFP4

  • Grâce au format MXFP4, même le 20B peut fonctionner sur 16 Go de VRAM (avec un GPU récent indispensable)
  • Pour le 120B, 80 Go de mémoire sur une H100 suffisent pour une exécution sur un seul GPU, sans traitement distribué et avec une mise en œuvre simplifiée

Benchmarks et usage réel

  • gpt-oss met l’accent de l’entraînement sur le reasoning, avec une tendance possible à l’hallucination sur certaines questions de culture générale
  • En matière d’usage, il fait partie des meilleurs modèles ouverts actuels, et sa praticité devrait encore progresser avec l’intégration d’outils
  • En conditions réelles, il faudra encore évaluer l’équilibre entre exactitude et reasoning, ainsi que le comparer à d’autres modèles ouverts

Comparaison avec GPT-5

  • gpt-oss-120b affiche, sur benchmark, des performances proches du modèle commercial d’OpenAI (GPT-5)
  • Son avantage en conditions réelles reste à confirmer, mais il constitue une alternative puissante parmi les LLM récents proposés en open weights
  • Les benchmarks seuls ne suffisent pas à décrire entièrement la compétitivité en pratique, mais cela ouvre de grandes opportunités pour les comparaisons externes et la recherche future

Résumé

  • L’arrivée de la série gpt-oss établit une nouvelle référence dans le domaine des grands LLM en open weights, en comparant et analysant en détail la manière dont les innovations architecturales récentes des LLM sont réellement mises en œuvre et appliquées
  • Les différences et tendances par rapport à d’autres modèles récents comme Qwen3 ou GPT-5 permettent de mieux comprendre l’état de l’art utile pour les applications concrètes et la recherche

1 commentaires

 
GN⁺ 2025-08-11
Commentaires Hacker News
  • J’ai constaté que Qwen3 est nettement meilleur en tests locaux. La version 32B paramètres respecte presque parfaitement les prompts et produit des résultats naturels. À l’inverse, simplebench gpt-oss (120B) se montre peu performant sur les puzzles logiques. Je pense que cet écart vient de la méthode d’entraînement, de la dimension du modèle, et du choix entre peu de grands experts vs beaucoup de petits experts

    • Qwen3 32B est un modèle dense qui utilise toujours tous ses paramètres. GPT OSS 20B est un modèle MoE sparse (Expert of Experts) qui n’en utilise qu’une partie, environ 3.6B à la fois. Il est donc plus rapide qu’un modèle dense 20B, et plus intelligent qu’un modèle 3.6B. Pour une comparaison équitable, il faudrait le comparer à un modèle dense 8B, et des modèles comme Qwen Coder 30B A3B sont aussi de bons points de comparaison
    • À mon avis, ce genre d’écart vient bien plus des données et du pipeline d’entraînement que de l’architecture du modèle. Il se dit que gpt-oss n’utilise que des jeux de données synthétiques de style Phi et se concentre surtout sur des benchmarks ludiques, et les preuves en ce sens me paraissent assez convaincantes
    • La formule de performance attendue d’un MoE est sqrt(nombre de têtes actives * nombre total de paramètres). Par exemple, sqrt(120*5) ~= 24, donc GPT-OSS 120B offre en réalité des performances de l’ordre de 24B avec une vitesse correspondant à un modèle bien plus petit
    • qwen3 est plutôt lent. Je l’ai essayé moi-même : ça fonctionne, mais c’est lent et ça donne l’impression de manquer de fonctionnalités
  • Les billets de blog de Sebastian Raschk sont une mine d’informations. J’utilise get-oss et les modèles qwen3 en local avec Ollama et LM Studio, et les grands modèles via des API commerciales. get-oss donne de bons résultats quand on lui passe beaucoup d’informations de contexte dans le prompt, et qwen3 est tout simplement excellent. Jusqu’à il y a 3 ans, je comprenais assez bien le machine learning pour implémenter moi-même des réseaux de neurones, des GAN, des RNN, des LSTM, etc., mais les LLM actuels ne sont plus assez accessibles pour être développés directement, et c’est dommage. Je regarde aussi le livre de Sebastian Raschk, mais je doute d’aller jusqu’au bout

    • Dans un domaine qui évolue à une vitesse incroyable, Sebastian Raschk m’aide énormément en synthétisant toujours les informations les plus récentes de manière concise
  • Sur un GPU 3090 local, j’ai fait tourner qwen3 coder instruct 30b-a3b exl3 q6, et je lui ai fait créer une page d’exemple, lancer un serveur, détecter qu’un serveur tournait déjà, le stopper lui-même (en demandant les autorisations), puis le relancer, retrouver automatiquement l’IP et l’ouvrir dans le navigateur. Ce n’est plus juste une simple démo : c’est désormais une aide concrètement utile même pour un junior ou un stagiaire

  • D’après mon expérience, qwen3-coder est de loin supérieur. J’ai aussi installé gpt-oss:20b, mais quand je lui demande de résumer du code, qwen3 répond en quelques secondes alors que gpt-oss ne fait rien pendant plus de 5 minutes, donc j’interromps. Du coup, je n’utilise que qwen3. Si je n’obtiens pas la réponse voulue, j’utilise un moteur de recherche ou Perplexity. J’ai une 3080 10GB, un Ryzen 3600x et 32GB de RAM. Qwen3-coder est le meilleur que j’aie utilisé jusqu’à présent

    • Qwen3 coder 480B est assez bon pour rivaliser avec Sonnet 4. C’est la première fois que j’ai vraiment le sentiment que les modèles chinois pourraient bientôt dépasser les modèles américains, surtout en programmation
    • Il est possible que le problème vienne du fait que gpt-oss 20B ne tient pas dans 10GB
    • Moi aussi, j’utilise gpt-oss-20b de façon simple, et avec des prompts courts (une seule phrase), il lui arrive de tomber dans une boucle infinie. En le faisant tourner avec llama.cpp, je n’ai plus eu ce problème après avoir réduit la valeur de la pénalité de répétition (je m’en sers surtout pour analyser des diff, quelques fois par jour). Cela dit, j’ai peut-être juste eu de la chance
    • Je suis curieux de savoir si tu l’utilises de manière agentic (automatisation avec plusieurs tours de questions-réponses) ou seulement en copier-coller avec un simple « écris-moi ce code ». J’aimerais savoir à quel point les derniers modèles ouverts ont rattrapé les modèles commerciaux en coding agentic
  • Je trouve intéressant qu’en ce moment les LLM open weight aient des architectures si similaires, et que l’innovation se produise surtout côté données ou RL. Dans les grandes organisations ML d’autrefois, l’ajustement de l’architecture paraissait être le plus important, mais la réalité semble différente

    • À l’échelle des LLM, le tuning d’hyperparamètres me paraît impossible. Le coût est trop élevé, donc ils font quelques tests de base sur plusieurs architectures, en choisissent une, puis l’optimisent avec les données et le RL
    • Bonne remarque. Les LLM ont rendu ce domaine accessible à tous ceux qui ont suffisamment de ressources. Les architectures sont assez robustes aux ajustements, et avec assez de compute et de données, on peut produire un bon modèle même sans respecter les scaling laws (comme Llama 3 l’avait montré par le passé)
  • J’utilise vraiment très bien le modèle Qwen3 4B en local. Je n’utilise presque plus de modèles en ligne, et même la recherche web est beaucoup mieux ciblée. Je ne lui fais pas totalement confiance, mais dans l’ensemble c’est bien. Je suis convaincu que ce type de modèle open source va changer la donne pour l’automatisation locale des connaissances

    • Je me demande si Qwen indique simplement de meilleurs paramètres de recherche, ou s’il effectue réellement la recherche web lui-même
  • Dans LM Arena, le meilleur modèle non fondé sur un pur Transformer est Jamba (architecture hybride entre Transformers et modèles state space, 96e). Les hunyuan-turbos de Tencent sont également hybrides et sont 22e. Voir l’article arXiv

  • Les LLM s’entraînent généralement sur un très grand dataset une seule fois seulement (une seule époque). C’est un cadre différent de celui du Dropout, qui supposait des entraînements répétés sur plusieurs centaines d’époques

    • C’est un fait bien connu. Il suffit de regarder la Table 2.2 de l’article GPT-3
  • Je me demande jusqu’où les modèles publiés par les grands laboratoires pourraient progresser avec davantage d’entraînement. Par exemple, si GPT-OSS a été entraîné pendant 2,1 millions d’heures, quel gain obtiendrait-on en doublant ce chiffre ?

    • GPT-4.5 a peut-être en réalité été conçu comme un GPT-5 plus grand et entraîné sur davantage de données. Mais il était trop coûteux pour une commercialisation à grande échelle, et c’est dommage qu’on n’ait jamais vu de version avec RL appliqué
    • Il est déjà apparu que les techniques avancées d’entraînement fondées sur le RL utilisées dans GPT-5 ne se généralisent pas indéfiniment
  • En accédant au site, j’obtiens le message d’erreur « Votre connexion n’est pas sécurisée ». Il est indiqué que « le site magazine.sebastianraschka.com utilise HSTS et ne peut pas être visité pour le moment ». J’utilise la dernière version de Chrome sous Ubuntu.