OpenAI a rendu publique la série de modèles GPT-OSS (gpt-oss-120b / gpt-oss-20b) sous licence Apache 2.0. Il s’agit du premier modèle à poids ouverts présenté depuis GPT-2, il y a 6 ans, avec le potentiel de bouleverser le marché à la fois en matière de performances et d’efficacité.
🧠 Caractéristiques clés
- Modèle 20B : architecture Mixture of Experts (MoE)
• 4 experts activés sur 128 → réduction du coût d’inférence tout en maintenant les performances
• prise en charge de FlashAttention, 128k tokens, avec YaRN - Modèle 20B : exécutable même dans un environnement GPU de 16 Go (y compris Apple Silicon)
📊 Principales performances de benchmark (sur GPT-OSS-120B)
- MMLU : 90,0 % (niveau similaire à o4-mini)
- AIME mathématiques : 97,9 % (parmi les meilleurs en maths + outils)
- Codeforces Elo : 2622 (également très bien classé en code)
- HealthBench : performances supérieures à GPT-4o
- MMMLU (14 langues) : 81,3 % → excellentes capacités de raisonnement multilingue
💡 Usage pratique & écosystème
- Le modèle 120B peut tourner sur un seul GPU H100 80GB
- Le modèle 20B peut fonctionner en temps réel même dans un environnement 16GB
- Compatible immédiatement avec HuggingFace, vLLM, Ollama, etc.
🔐 Sécurité & responsabilité
- Renforcement de la cohérence du raisonnement basé sur le RL
- Introduction de Deliberative Alignment
- Ne génère pas de sorties à haut risque, même en cas de mauvais usage intentionnel
Pendant quelque temps, les moqueries du style « ClosedAI » devraient donc se calmer. Je l’ai testé rapidement, et il se débrouille aussi très bien en coréen.
8 commentaires
Le score simpleqa du modèle 120b n’est que de 0,168.
J’ai essayé de le servir avec vllm, mais comme il est basé sur Flash Attention3, seuls les Hopper sont pris en charge, snif snif.
Moi aussi, donc avec ollama…
Le A100 est complètement dépassé...
Pour les commentaires Hacker News associés, consultez l’article OpenAI dévoile un modèle de langage open weight à grande échelle.
Vous pouvez y voir diverses évaluations des performances.
Quand j’ai envie de savoir si mon ordinateur est lent… je me dis que ce serait peut-être une bonne idée de le tester avec le même prompt en chronométrant directement les secondes. ^^; J’aimerais bien aussi laisser ouvert au moins un simple Google Spreadsheet pour noter ça (juste pour le plaisir de consigner les résultats).
Grâce à la quantification MXFP4, il serait possible de l’exécuter dans Ollama même sur des systèmes disposant de 16 Go de mémoire (VRAM) (
gpt-oss:20b) : https://ollama.com/blog/gpt-ossPour ceux qui souhaitent exécuter des modèles plus volumineux, vous pouvez utiliser
ollama turbo, lancé cette fois-ci à 20 $/mois : https://ollama.com/turbo