OpenAI publie un modèle de langage open-weight de grande taille

(openai.com)

7 points par GN⁺ 2025-08-06 | Aucun commentaire pour le moment. | Partager sur WhatsApp

OpenAI a dévoilé pour la première fois le modèle de langage open-weight à grande échelle (gpt-oss)
Deux modèles sont proposés, gpt-oss-120b et gpt-oss-20b, avec de bonnes performances et une prise en charge étendue des appareils
La licence Apache 2.0 permet une utilisation commerciale, une personnalisation et une distribution libres
OpenAI met en place un entraînement à la sécurité, une revue par des experts externes et une procédure de tests de sécurité complets
Les modèles sont téléchargeables et utilisables directement depuis Hugging Face et GitHub, avec des ressources de fine-tuning, déploiement et personnalisation, ainsi qu'un Playground

Modèles open d'OpenAI

OpenAI a publié un modèle d'inférence open-weight à grande échelle (gpt-oss), personnalisable pour chaque cas d'usage et exécutable partout
Les fichiers du modèle peuvent être téléchargés directement via Hugging Face et GitHub, et une démo est disponible via le Playground basé sur le web
Diffusé sous licence Apache 2.0, il peut être utilisé commercialement, personnalisé et distribué librement, sans crainte de copyleft ni de problème de brevet

gpt-oss-120b : modèle de grande taille pour centre de données, ordinateurs de bureau hautes performances et ordinateurs portables
gpt-oss-20b : modèle de taille moyenne pouvant fonctionner sur la plupart des ordinateurs de bureau et portables

Principales caractéristiques

Optimisation des tâches d'agent
- L'utilisation d'outils et le respect des consignes sont des atouts, notamment pour les usages liés aux agents, comme la recherche web et l'exécution de code Python
Personnalisation et fine-tuning
- Ajustement possible d'hyperparamètres comme reasoning_effort (effort de raisonnement)
- Prise en charge du fine-tuning de tous les paramètres pour une personnalisation avancée
Exposition de la chaine de pensée (Chain-of-Thought)
- Il est possible de voir l'intégralité du déploiement du processus de raisonnement (chaîne de pensée), ce qui facilite le débogage et l'évaluation de la confiance
Playground proposé
- Un Playground permet à tout développeur et chercheur de tester les performances du modèle dans le navigateur

Performance des modèles

gpt-oss-120b et gpt-oss-20b sont comparés directement aux modèles commerciaux d'OpenAI (OpenAI o3, o4-mini) sur plusieurs benchmarks clés
Les scores de chaque modèle en raisonnement, connaissances, concours de mathématiques et d'autres domaines sont communiqués en détail
Pour certains critères, il s'avère proche des modèles commerciaux, et certains tests montrent même de meilleurs résultats

Détails des performances des principaux benchmarks

Raisonnement et connaissances
- MMLU (Massive Multitask Language Understanding)
  - gpt-oss-120b: 90
  - gpt-oss-20b: 85.3
  - OpenAI o3: 93.4
  - OpenAI o4-mini: 93
  - → Un peu en deçà des grands modèles commerciaux, mais des performances de raisonnement globales très élevées pour un modèle open
- GPQA Diamond
  - gpt-oss-120b: 80.9
  - gpt-oss-20b: 74.2
  - OpenAI o3: 77
  - OpenAI o4-mini: 81.4
  - → Malgré son statut de modèle open, les performances de QA de connaissances avancées restent très proches de celles des modèles commerciaux
- Humanity’s Last Exam
  - gpt-oss-120b: 19
  - gpt-oss-20b: 17.3
  - OpenAI o3: 24.9
  - OpenAI o4-mini: 17.7
  - → Dans les évaluations les plus difficiles, il est en retrait des modèles commerciaux, mais 20b et o4-mini sont quasiment identiques
Compétition mathématique (AIME)
- AIME 2024
  - gpt-oss-120b: 96.6
  - gpt-oss-20b: 96
  - OpenAI o3: 91.6
  - OpenAI o4-mini: 93.4
  - → Selon la version 2024, le score est même supérieur à celui des modèles commerciaux
- AIME 2025
  - gpt-oss-120b: 97.9
  - gpt-oss-20b: 98.7
  - OpenAI o3: 88.9
  - OpenAI o4-mini: 92.7
  - → En mathématiques, des scores dépassant ceux des modèles commerciaux d'OpenAI sont également observés
Synthèse générale
- La série gpt-oss démontre une forte performance, notamment en mathématiques, logique et connaissances
- L'écart avec les modèles commerciaux reste limité, et le potentiel de mise en production ou d'application technique est élevé
- En tant que grands modèles open, ils constituent une option suffisamment compétitive pour la R&D, les agents et les environnements de personnalisation

Sécurité et tests

Des entraînerments et évaluations de sécurité stricts sont appliqués à tous les modèles
Selon le cadre de préparation d'OpenAI, la résistance au fine-tuning malveillant est testée séparément
En collaboration avec des experts externes en sécurité, OpenAI a défini des standards de sécurité pour les modèles open

Les modèles peuvent être téléchargés et utilisés via Hugging Face et GitHub

OpenAI publie un modèle de langage open-weight de grande taille

Modèles open d'OpenAI

Principales caractéristiques

Optimisation des tâches d'agent

Personnalisation et fine-tuning

Exposition de la chaine de pensée (Chain-of-Thought)

Playground proposé

Performance des modèles

Détails des performances des principaux benchmarks

Raisonnement et connaissances

Compétition mathématique (AIME)

Synthèse générale

Sécurité et tests

À lire aussi

Aucun commentaire pour le moment.