- OpenAI a dévoilé pour la première fois le modèle de langage open-weight à grande échelle (gpt-oss)
- Deux modèles sont proposés, gpt-oss-120b et gpt-oss-20b, avec de bonnes performances et une prise en charge étendue des appareils
- La licence Apache 2.0 permet une utilisation commerciale, une personnalisation et une distribution libres
- OpenAI met en place un entraînement à la sécurité, une revue par des experts externes et une procédure de tests de sécurité complets
- Les modèles sont téléchargeables et utilisables directement depuis Hugging Face et GitHub, avec des ressources de fine-tuning, déploiement et personnalisation, ainsi qu'un Playground
Modèles open d'OpenAI
- OpenAI a publié un modèle d'inférence open-weight à grande échelle (gpt-oss), personnalisable pour chaque cas d'usage et exécutable partout
- Les fichiers du modèle peuvent être téléchargés directement via Hugging Face et GitHub, et une démo est disponible via le Playground basé sur le web
- Diffusé sous licence Apache 2.0, il peut être utilisé commercialement, personnalisé et distribué librement, sans crainte de copyleft ni de problème de brevet
- gpt-oss-120b : modèle de grande taille pour centre de données, ordinateurs de bureau hautes performances et ordinateurs portables
- gpt-oss-20b : modèle de taille moyenne pouvant fonctionner sur la plupart des ordinateurs de bureau et portables
Principales caractéristiques
-
Optimisation des tâches d'agent
- L'utilisation d'outils et le respect des consignes sont des atouts, notamment pour les usages liés aux agents, comme la recherche web et l'exécution de code Python
-
Personnalisation et fine-tuning
- Ajustement possible d'hyperparamètres comme reasoning_effort (effort de raisonnement)
- Prise en charge du fine-tuning de tous les paramètres pour une personnalisation avancée
-
Exposition de la chaine de pensée (Chain-of-Thought)
- Il est possible de voir l'intégralité du déploiement du processus de raisonnement (chaîne de pensée), ce qui facilite le débogage et l'évaluation de la confiance
-
Playground proposé
- Un Playground permet à tout développeur et chercheur de tester les performances du modèle dans le navigateur
Performance des modèles
- gpt-oss-120b et gpt-oss-20b sont comparés directement aux modèles commerciaux d'OpenAI (OpenAI o3, o4-mini) sur plusieurs benchmarks clés
- Les scores de chaque modèle en raisonnement, connaissances, concours de mathématiques et d'autres domaines sont communiqués en détail
- Pour certains critères, il s'avère proche des modèles commerciaux, et certains tests montrent même de meilleurs résultats
Détails des performances des principaux benchmarks
-
Raisonnement et connaissances
- MMLU (Massive Multitask Language Understanding)
- gpt-oss-120b: 90
- gpt-oss-20b: 85.3
- OpenAI o3: 93.4
- OpenAI o4-mini: 93
- → Un peu en deçà des grands modèles commerciaux, mais des performances de raisonnement globales très élevées pour un modèle open
- GPQA Diamond
- gpt-oss-120b: 80.9
- gpt-oss-20b: 74.2
- OpenAI o3: 77
- OpenAI o4-mini: 81.4
- → Malgré son statut de modèle open, les performances de QA de connaissances avancées restent très proches de celles des modèles commerciaux
- Humanity’s Last Exam
- gpt-oss-120b: 19
- gpt-oss-20b: 17.3
- OpenAI o3: 24.9
- OpenAI o4-mini: 17.7
- → Dans les évaluations les plus difficiles, il est en retrait des modèles commerciaux, mais 20b et o4-mini sont quasiment identiques
- MMLU (Massive Multitask Language Understanding)
-
Compétition mathématique (AIME)
- AIME 2024
- gpt-oss-120b: 96.6
- gpt-oss-20b: 96
- OpenAI o3: 91.6
- OpenAI o4-mini: 93.4
- → Selon la version 2024, le score est même supérieur à celui des modèles commerciaux
- AIME 2025
- gpt-oss-120b: 97.9
- gpt-oss-20b: 98.7
- OpenAI o3: 88.9
- OpenAI o4-mini: 92.7
- → En mathématiques, des scores dépassant ceux des modèles commerciaux d'OpenAI sont également observés
- AIME 2024
-
Synthèse générale
- La série gpt-oss démontre une forte performance, notamment en mathématiques, logique et connaissances
- L'écart avec les modèles commerciaux reste limité, et le potentiel de mise en production ou d'application technique est élevé
- En tant que grands modèles open, ils constituent une option suffisamment compétitive pour la R&D, les agents et les environnements de personnalisation
Sécurité et tests
- Des entraînerments et évaluations de sécurité stricts sont appliqués à tous les modèles
- Selon le cadre de préparation d'OpenAI, la résistance au fine-tuning malveillant est testée séparément
- En collaboration avec des experts externes en sécurité, OpenAI a défini des standards de sécurité pour les modèles open
- Les modèles peuvent être téléchargés et utilisés via Hugging Face et GitHub
1 commentaires
Avis sur Hacker News
Il me semble qu'ils ne sont pas vraiment sur le sujet. gpt-oss:20b est dans le top 10 sur MMLU et vient juste derrière Gemini-2.5-Pro. Je l'ai fait tourner sur un MacBook Air M3 l'an dernier. J'expérimente divers modèles locaux sur un laptop et un Pixel 9 Pro, et je pensais qu'on atteindrait rapidement ce niveau, mais c'est déjà le cas aujourd'hui. Les modèles de pointe peuvent être exécutés sur un laptop à coût quasi nul (à peine la facture d'électricité). L'abonnement mensuel de 200 dollars n'est plus nécessaire, ni les frais annexes. C'est vraiment étonnant.
J'ai testé le modèle 20b en direct, et il n'a pas réussi à résoudre un test de "label switching" élémentaire. Il reste loin du SOTA et, sur certains aspects, inférieur même à certains modèles locaux comme QwQ-32b.
Je réfléchis encore à savoir quel groupe utilisera le plus l'IA locale. Des étudiants qui ont le matériel, mais veulent éviter les modèles payants ? Ou des développeurs très sensibles aux coûts qui veulent coder gratuitement ? Personnellement, je trouve que les modèles locaux n'extraient pas correctement les données depuis les images et produisent souvent des absurdités (dans le cas de Qwen 2.5 VI). J'espère que la qualité des modèles locaux/compactes et les performances des appareils vont continuer de s'améliorer. Honnêtement, je les utilise surtout par principe : « on peut le faire, donc je le fais ». Je me demande quelle est la vraie raison de se lancer là-dedans, avec plusieurs Mac Studio enchaînés ou en achetant une bonne carte graphique. Des outils de calcul distribué comme exo ont une super idée derrière eux, mais je me demande combien de cas urgents justifient vraiment d'aller jusque-là.
J'accepte le paradoxe de Jevons (économiser une ressource peut conduire à en consommer davantage) et je parie que l'usage explosera, jusqu'à ce que des agents simulant une auto-conscience vident de nouveau la ressource.
Je me demande aussi combien on connaît réellement les derniers modèles open-weight. Après quelques heures de test, je n'étais pas du tout au niveau de Qwen3-30B-A3B. En particulier, il manque manifestement des connaissances du monde.
En fait, « tout puiser » ne relève pas de l'inférence, mais de l'entraînement.
Je partage cela pour ceux qui s'intéressent à la model card lien PDF J'ai comparé la structure des modèles présentés avec Deepseek, Qwen, GLM, Kimi et d'autres modèles open-weight de référence. Techniquement, le sentiment est plutôt « ah, donc c'est ça ».
Je pense que la vraie source secrète ici est probablement la distillation. Les recherches ont déjà montré que préentraîner des modèles plus petits avec des jeux de données synthétiques de haute qualité générés à partir des sorties de prompts de modèles SOTA comme o3, au lieu des données internet, maximise les performances des petits modèles. C'est bien plus efficace que d'appliquer ensuite du RL à un petit modèle (les petits modèles ont un baseline bas, donc le RL y est inefficace).
OpenAI peut aussi être vu comme ayant un vrai progrès technique en dehors de la structure d'attention. Leur message semble être : « il n'y a pas de secret caché, vous avez surtout mal fait le mid/post-training ». Le modèle a une sparsity assez élevée de 32:1.
Je vois la sortie MXFP4 comme une sorte de cadeau. C'est un résultat de leur optimisation massive de coûts, donc un avantage pour l'écosystème open source. La quantification 1,58 bit d'Unsloth est impressionnante, mais la perte est claire face à la quantification complète, donc pour la plupart des usages LLM, la précision reste prioritaire. En production, il y a peu d'entreprises qui font tourner des frontier models en reduced quant. Si OpenAI l'applique en prod, ce serait une expérience très intéressante.
Une analyse similaire est aussi possible sur ce repo GitHub.
L'attention sink (concentration sur des tokens spéciaux) est aussi utilisée. Mais ce n'est pas un token séparé : c'est implémenté via des logits supplémentaires appris pour le softmax d'attention.
Je vous laisse mes premières impressions, après quelques heures, avec ce detailed review TLDR : on dirait qu'OpenAI a récupéré le titre de meilleur modèle open-weight face aux AI labs chinois. J'ai hâte de voir les benchmarks indépendants. Le modèle 20B tourne avec moins de 15GB de RAM sur un Macbook.
J'ai créé un dashboard Streamlit avec MACD, RSI et MA(200). qwen3-coder-30b en 4bit mlx traite correctement les données récentes et génère un dashboard parfaitement fonctionnel. gpt-oss-20b mxfp4 avait
datetime importabsent ; même corrigé, la date de démarrage restait figée en août 2020 avec aucune donnée. Même après ajustement de la date, la fonction de mise à jour renvoie une erreur.Quand j'ai utilisé le modèle sur Macbook, la fenêtre de contexte devait être trop courte, ce qui réduisait l'utilité, donc je me demande comment ils l'ont réglé.
Je suis curieux du fonctionnement du tool calling. Ça n'a pas bien marché malgré plusieurs heures. C'est quand même un modèle à prendre au sérieux.
Puisque le modèle 20B tient en moins de 15GB de RAM, je vais l'essayer bientôt. J'aimerais connaître le TPS (tokens par seconde) et les infos processeur.
L'ère où l'on peut faire tourner un modèle de niveau o3 sur un Mac Mini 24GB est arrivée. Il y a encore peu de temps, faire tourner ce type de modèle récent en local ou sur mobile semblait une mission pour 5 ans ; maintenant, ça semble possible dès la prochaine génération de téléphone.
Même avec des contraintes matérielles sévères, des modèles comme Qwen affichent de très bonnes performances. J'attends avec intérêt les résultats de benchmark pour voir comment les nouveaux modèles open source se comparent.
Je me souviens des débats de sécurité lors de l'ouverture de Llama. Aujourd'hui, on peut faire tourner un modèle frontier 120B paramètres sur un Macbook avec 96GB (V)RAM. Avec la quantification MLX, j'ai hâte de comparer avec GLM-4.5-air.
Honnêtement, j'avais de grosses attentes pour ce modèle, mais d'après l'évaluation sur localllama, le modèle 120B n'atteint pas qwen3 coder, glm45 air ni grok 3 côté coding. Discussion Reddit
Quand j'ai réellement fait tourner un modèle de taille moyenne (quantisé) sur Mac Mini, je me demande si le débit est de 5 tokens/s ou si c'est vraiment exploitable.
Je suis curieux de connaître la manière la plus simple aujourd'hui pour faire du web browsing avec des modèles locaux.
Je pense que les open models gagneront à long terme. Anthropic mène aussi de la recherche avec des modèles OSS, et la Chine fait évoluer les modèles open-source très vite. Je prévois que le camp américain ouvrira encore des modèles N-1 (une génération en retard) pour 1 à 3 générations. Rendre open-source les modèles de dernière génération coûte en revanche trop cher. Sans soutien gouvernemental ou innovation énergétique de type Stargate, il y a des limites. Les modèles N-1 se déprécient très vite, donc les publier en OSS pour absorber des cas d'usage spécialisés et applicatifs a une vraie valeur sur la durée. Même si les risques existent (perte de parts de marché, etc.), la concentration de résultats de recherche publiés laisse une grande marge pour accélérer fortement le rythme des générations suivantes. À l'avenir, énormément de petits modèles OSS vont apparaître. On peut s'attendre à une vague de modèles spécialisés qui, dans une logique OSS, évolueront pour bien tourner sur de petits appareils. Dans un futur centré sur les agents, des modèles spécialisés et distillés par domaine vont tomber en masse. Tout le monde court vers l'AGI/SGI, et dans ce processus ces modèles servent de stade intermédiaire pour capter des parts de marché et exploiter les données. Si AGI/SGI se concrétise, la vraie valeur sera dans l'innovation en science, ingénierie et tous les domaines. Anthropic recherche utilisant Qwen et Llama comme OSS.
Anthropic n'a pas besoin d'expérimenter exclusivement avec des open models. Il suffit de laisser, de façon reproductible, des résultats en OSS pour les chercheurs suivants.
Dire que « les open models finiront par gagner » suppose des hypothèses. D'abord, il faut définir ce que signifie « gagner ». Si ce n'est pas le cas :
L'industrie semble aller vers un socle de foundation models auxquels on ajoute des outils, des bases de données et des process. Dans ce sens, les open models peuvent très bien capter le marché. Mais je ne sais pas quelle valeur réelle peut apporter l'entraînement et la maintenance séparés de nombreuses petites modèles spécialisés.
L'arrivée à l'AGI/SGI n'est probablement pas un saut unique. Les performances s'amélioreront simplement de manière progressive. Un coût d'inférence suffisamment bas est indispensable pour un usage réel. Si l'objectif est le profit ou l'innovation, je me demande quelle direction est la meilleure. Un cas comme Isomorphic Labs montre déjà ce type de modèle (il existe déjà, et des équipes y sont dédiées).
Si les open models sont vraiment les gagnants à long terme, il reste à réfléchir pour Frontier labs à la bonne vitesse et au bon niveau de secret à adopter pour ouvrir en OSS. Les motivations opérationnelles, d'exploitation et d'investissement diffèrent, et peuvent diverger des intérêts de l'État ou de l'humanité.
L'inférence modèle en Python s'appuie sur
harmony[1] écrit en Rust, la tokenisation surtiktoken[2], et Codex[3] est aussi écrit en Rust. OpenAI adopte de plus en plus Rust dans son pipeline d'inférence. harmony, tiktoken, codexEn tant qu'ingénieur majoritairement orienté Rust, cette orientation est très agréable.
C'est positif de voir le recul de Python dans la stack.
Est-ce que ça signifie que le meilleur modèle va être publié dans quelques jours ? Du point de vue stratégique, publier ça annonce probablement une annonce plus innovante qui arrive bientôt.
C'est une stratégie intelligente même sans annonce immédiate. La pression des modèles open-weight performants de type Qwen est forte. Sans ça, on peut se retrouver en retard dans l'ensemble du domaine. Les opportunités futures en licence, support technique, agents, notoriété de marque et part de marché sont aussi importantes. Si ces modèles sont bien exploités, ils peuvent rendre OpenAI plus facile à trouver via des modèles plus grands.
Pari sur la sortie jeudi : GPT-5 release-day bet
Publication de GPT-5 ce jeudi
Sans publication, la valeur des produits payants existants diminue. Mais je pense que l'ouverture de modèles open-source n'a pas encore menacé le modèle commercial à un point où le retard pris leur aurait fait clairement perdre.
J'étais déjà convaincu depuis environ une semaine, après plusieurs signaux, que GPT-5 était imminent.
Le simple fait de voir un modèle 20B proche des performances o3 est déjà incroyable. Il y a un an, une telle intelligence dans un modèle compact paraissait impossible. Personnellement, ce qui m'enthousiasme le plus, c'est la capacité à distiller un modèle entraîné avec 100 milliards de paramètres vers quelques milliards en transférant la « magie » avec peu ou pas de perte. Imaginer une intelligence de type Claude 4 Opus dans un modèle de 10B tournant localement à 2 000 tokens/s changerait complètement la manière de développer des logiciels.
En réalité, ce n'est pas un modèle 20B : c'est un MoE avec 3,6B de paramètres actifs. La performance n'est pas réellement au niveau o3. Les métriques ont toujours un décalage avec le réel, donc il faut tester soi-même pour vérifier la qualité.
10B x 2 000 t/s nécessite une bande passante mémoire de 20 000 GB/s. Les matériels Apple plafonnent autour de 1 000 GB/s.
Changement de sujet, mais je trouve qu'Ollama est vraiment top. Trouver un modèle en 2 secondes, le télécharger en 1 minute, prêt à l'emploi. Kudos à l'équipe !
En fait, Ollama a été pré-dévéloppé avec le soutien d'OpenAI. Voir le blog officiel d'Ollama
LM Studio est tout aussi simple. En vrai, la clé est llama.cpp, et pour la distribution, c'est HuggingFace qui fournit tout.
J'ai déjà vu un fil disant qu'Ollama passait en closed source. Discussion Reddit associée
J'ai réussi à connecter
gpt-oss:20blocalement à claude code via un proxy léger et Ollama. C'est amusant, mais le prefill est si lent que ce n'est pas utilisable en pratique. Chaque appel d'outil prend 2 à 3 minutes ; sur 10 à 20 appels, cela prend 30 à 60 minutes. Dansserver.py(1 000 lignes), il y a une définition d'outils + ~30 000 tokens de contexte Claude, et en lisant un fichier d'entrée, ça monte à 50 000 tokens. Il y a clairement des marges d'optimisation. Je ne sais pas si Ollama prend en charge le kv-cache entre les appels/v1/completions; si oui, cela aiderait beaucoup la vitesse.llama-serverdispose d'un kv cache transparent. Lancez avec : La Web UI est localhost:8080 (API compatible OpenAI).