31 points par haebom 2025-08-06 | 8 commentaires | Partager sur WhatsApp

OpenAI a rendu publique la série de modèles GPT-OSS (gpt-oss-120b / gpt-oss-20b) sous licence Apache 2.0. Il s’agit du premier modèle à poids ouverts présenté depuis GPT-2, il y a 6 ans, avec le potentiel de bouleverser le marché à la fois en matière de performances et d’efficacité.

🧠 Caractéristiques clés

  • Modèle 20B : architecture Mixture of Experts (MoE)
     • 4 experts activés sur 128 → réduction du coût d’inférence tout en maintenant les performances
     • prise en charge de FlashAttention, 128k tokens, avec YaRN
  • Modèle 20B : exécutable même dans un environnement GPU de 16 Go (y compris Apple Silicon)

📊 Principales performances de benchmark (sur GPT-OSS-120B)

  • MMLU : 90,0 % (niveau similaire à o4-mini)
  • AIME mathématiques : 97,9 % (parmi les meilleurs en maths + outils)
  • Codeforces Elo : 2622 (également très bien classé en code)
  • HealthBench : performances supérieures à GPT-4o
  • MMMLU (14 langues) : 81,3 % → excellentes capacités de raisonnement multilingue

💡 Usage pratique & écosystème

  • Le modèle 120B peut tourner sur un seul GPU H100 80GB
  • Le modèle 20B peut fonctionner en temps réel même dans un environnement 16GB
  • Compatible immédiatement avec HuggingFace, vLLM, Ollama, etc.

🔐 Sécurité & responsabilité

  • Renforcement de la cohérence du raisonnement basé sur le RL
  • Introduction de Deliberative Alignment
  • Ne génère pas de sorties à haut risque, même en cas de mauvais usage intentionnel

Pendant quelque temps, les moqueries du style « ClosedAI » devraient donc se calmer. Je l’ai testé rapidement, et il se débrouille aussi très bien en coréen.

https://huggingface.co/openai/gpt-oss-120b

8 commentaires

 
yeorinhieut 2025-08-06

Le score simpleqa du modèle 120b n’est que de 0,168.

 
jinucho 2025-08-06

J’ai essayé de le servir avec vllm, mais comme il est basé sur Flash Attention3, seuls les Hopper sont pris en charge, snif snif.

 
yeorinhieut 2025-08-06

Moi aussi, donc avec ollama…

 
jinucho 2025-08-06

Le A100 est complètement dépassé...

 
xguru 2025-08-06

Pour les commentaires Hacker News associés, consultez l’article OpenAI dévoile un modèle de langage open weight à grande échelle.
Vous pouvez y voir diverses évaluations des performances.

 
argo9 2025-08-06

Quand j’ai envie de savoir si mon ordinateur est lent… je me dis que ce serait peut-être une bonne idée de le tester avec le même prompt en chronométrant directement les secondes. ^^; J’aimerais bien aussi laisser ouvert au moins un simple Google Spreadsheet pour noter ça (juste pour le plaisir de consigner les résultats).

 
fanotify 2025-08-06

Grâce à la quantification MXFP4, il serait possible de l’exécuter dans Ollama même sur des systèmes disposant de 16 Go de mémoire (VRAM) (gpt-oss:20b) : https://ollama.com/blog/gpt-oss

 
fanotify 2025-08-06

Pour ceux qui souhaitent exécuter des modèles plus volumineux, vous pouvez utiliser ollama turbo, lancé cette fois-ci à 20 $/mois : https://ollama.com/turbo