- OpenAI a dévoilé pour la première fois le modèle de langage open-weight à grande échelle (gpt-oss)
- Deux modèles sont proposés, gpt-oss-120b et gpt-oss-20b, avec de bonnes performances et une prise en charge étendue des appareils
- La licence Apache 2.0 permet une utilisation commerciale, une personnalisation et une distribution libres
- OpenAI met en place un entraînement à la sécurité, une revue par des experts externes et une procédure de tests de sécurité complets
- Les modèles sont téléchargeables et utilisables directement depuis Hugging Face et GitHub, avec des ressources de fine-tuning, déploiement et personnalisation, ainsi qu'un Playground
Modèles open d'OpenAI
- OpenAI a publié un modèle d'inférence open-weight à grande échelle (gpt-oss), personnalisable pour chaque cas d'usage et exécutable partout
- Les fichiers du modèle peuvent être téléchargés directement via Hugging Face et GitHub, et une démo est disponible via le Playground basé sur le web
- Diffusé sous licence Apache 2.0, il peut être utilisé commercialement, personnalisé et distribué librement, sans crainte de copyleft ni de problème de brevet
- gpt-oss-120b : modèle de grande taille pour centre de données, ordinateurs de bureau hautes performances et ordinateurs portables
- gpt-oss-20b : modèle de taille moyenne pouvant fonctionner sur la plupart des ordinateurs de bureau et portables
Principales caractéristiques
-
Optimisation des tâches d'agent
- L'utilisation d'outils et le respect des consignes sont des atouts, notamment pour les usages liés aux agents, comme la recherche web et l'exécution de code Python
-
Personnalisation et fine-tuning
- Ajustement possible d'hyperparamètres comme reasoning_effort (effort de raisonnement)
- Prise en charge du fine-tuning de tous les paramètres pour une personnalisation avancée
-
Exposition de la chaine de pensée (Chain-of-Thought)
- Il est possible de voir l'intégralité du déploiement du processus de raisonnement (chaîne de pensée), ce qui facilite le débogage et l'évaluation de la confiance
-
Playground proposé
- Un Playground permet à tout développeur et chercheur de tester les performances du modèle dans le navigateur
Performance des modèles
- gpt-oss-120b et gpt-oss-20b sont comparés directement aux modèles commerciaux d'OpenAI (OpenAI o3, o4-mini) sur plusieurs benchmarks clés
- Les scores de chaque modèle en raisonnement, connaissances, concours de mathématiques et d'autres domaines sont communiqués en détail
- Pour certains critères, il s'avère proche des modèles commerciaux, et certains tests montrent même de meilleurs résultats
Détails des performances des principaux benchmarks
-
Raisonnement et connaissances
- MMLU (Massive Multitask Language Understanding)
- gpt-oss-120b: 90
- gpt-oss-20b: 85.3
- OpenAI o3: 93.4
- OpenAI o4-mini: 93
- → Un peu en deçà des grands modèles commerciaux, mais des performances de raisonnement globales très élevées pour un modèle open
- GPQA Diamond
- gpt-oss-120b: 80.9
- gpt-oss-20b: 74.2
- OpenAI o3: 77
- OpenAI o4-mini: 81.4
- → Malgré son statut de modèle open, les performances de QA de connaissances avancées restent très proches de celles des modèles commerciaux
- Humanity’s Last Exam
- gpt-oss-120b: 19
- gpt-oss-20b: 17.3
- OpenAI o3: 24.9
- OpenAI o4-mini: 17.7
- → Dans les évaluations les plus difficiles, il est en retrait des modèles commerciaux, mais 20b et o4-mini sont quasiment identiques
-
Compétition mathématique (AIME)
- AIME 2024
- gpt-oss-120b: 96.6
- gpt-oss-20b: 96
- OpenAI o3: 91.6
- OpenAI o4-mini: 93.4
- → Selon la version 2024, le score est même supérieur à celui des modèles commerciaux
- AIME 2025
- gpt-oss-120b: 97.9
- gpt-oss-20b: 98.7
- OpenAI o3: 88.9
- OpenAI o4-mini: 92.7
- → En mathématiques, des scores dépassant ceux des modèles commerciaux d'OpenAI sont également observés
-
Synthèse générale
- La série gpt-oss démontre une forte performance, notamment en mathématiques, logique et connaissances
- L'écart avec les modèles commerciaux reste limité, et le potentiel de mise en production ou d'application technique est élevé
- En tant que grands modèles open, ils constituent une option suffisamment compétitive pour la R&D, les agents et les environnements de personnalisation
Sécurité et tests
- Des entraînerments et évaluations de sécurité stricts sont appliqués à tous les modèles
- Selon le cadre de préparation d'OpenAI, la résistance au fine-tuning malveillant est testée séparément
- En collaboration avec des experts externes en sécurité, OpenAI a défini des standards de sécurité pour les modèles open
Aucun commentaire pour le moment.