7 points par GN⁺ 2025-08-06 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • OpenAI a dévoilé pour la première fois le modèle de langage open-weight à grande échelle (gpt-oss)
  • Deux modèles sont proposés, gpt-oss-120b et gpt-oss-20b, avec de bonnes performances et une prise en charge étendue des appareils
  • La licence Apache 2.0 permet une utilisation commerciale, une personnalisation et une distribution libres
  • OpenAI met en place un entraînement à la sécurité, une revue par des experts externes et une procédure de tests de sécurité complets
  • Les modèles sont téléchargeables et utilisables directement depuis Hugging Face et GitHub, avec des ressources de fine-tuning, déploiement et personnalisation, ainsi qu'un Playground

Modèles open d'OpenAI

  • OpenAI a publié un modèle d'inférence open-weight à grande échelle (gpt-oss), personnalisable pour chaque cas d'usage et exécutable partout
  • Les fichiers du modèle peuvent être téléchargés directement via Hugging Face et GitHub, et une démo est disponible via le Playground basé sur le web
  • Diffusé sous licence Apache 2.0, il peut être utilisé commercialement, personnalisé et distribué librement, sans crainte de copyleft ni de problème de brevet
  • gpt-oss-120b : modèle de grande taille pour centre de données, ordinateurs de bureau hautes performances et ordinateurs portables
  • gpt-oss-20b : modèle de taille moyenne pouvant fonctionner sur la plupart des ordinateurs de bureau et portables

Principales caractéristiques

  • Optimisation des tâches d'agent

    • L'utilisation d'outils et le respect des consignes sont des atouts, notamment pour les usages liés aux agents, comme la recherche web et l'exécution de code Python
  • Personnalisation et fine-tuning

    • Ajustement possible d'hyperparamètres comme reasoning_effort (effort de raisonnement)
    • Prise en charge du fine-tuning de tous les paramètres pour une personnalisation avancée
  • Exposition de la chaine de pensée (Chain-of-Thought)

    • Il est possible de voir l'intégralité du déploiement du processus de raisonnement (chaîne de pensée), ce qui facilite le débogage et l'évaluation de la confiance
  • Playground proposé

    • Un Playground permet à tout développeur et chercheur de tester les performances du modèle dans le navigateur

Performance des modèles

  • gpt-oss-120b et gpt-oss-20b sont comparés directement aux modèles commerciaux d'OpenAI (OpenAI o3, o4-mini) sur plusieurs benchmarks clés
  • Les scores de chaque modèle en raisonnement, connaissances, concours de mathématiques et d'autres domaines sont communiqués en détail
  • Pour certains critères, il s'avère proche des modèles commerciaux, et certains tests montrent même de meilleurs résultats

Détails des performances des principaux benchmarks

  • Raisonnement et connaissances

    • MMLU (Massive Multitask Language Understanding)
      • gpt-oss-120b: 90
      • gpt-oss-20b: 85.3
      • OpenAI o3: 93.4
      • OpenAI o4-mini: 93
      • → Un peu en deçà des grands modèles commerciaux, mais des performances de raisonnement globales très élevées pour un modèle open
    • GPQA Diamond
      • gpt-oss-120b: 80.9
      • gpt-oss-20b: 74.2
      • OpenAI o3: 77
      • OpenAI o4-mini: 81.4
      • → Malgré son statut de modèle open, les performances de QA de connaissances avancées restent très proches de celles des modèles commerciaux
    • Humanity’s Last Exam
      • gpt-oss-120b: 19
      • gpt-oss-20b: 17.3
      • OpenAI o3: 24.9
      • OpenAI o4-mini: 17.7
      • → Dans les évaluations les plus difficiles, il est en retrait des modèles commerciaux, mais 20b et o4-mini sont quasiment identiques
  • Compétition mathématique (AIME)

    • AIME 2024
      • gpt-oss-120b: 96.6
      • gpt-oss-20b: 96
      • OpenAI o3: 91.6
      • OpenAI o4-mini: 93.4
      • Selon la version 2024, le score est même supérieur à celui des modèles commerciaux
    • AIME 2025
      • gpt-oss-120b: 97.9
      • gpt-oss-20b: 98.7
      • OpenAI o3: 88.9
      • OpenAI o4-mini: 92.7
      • En mathématiques, des scores dépassant ceux des modèles commerciaux d'OpenAI sont également observés
  • Synthèse générale

    • La série gpt-oss démontre une forte performance, notamment en mathématiques, logique et connaissances
    • L'écart avec les modèles commerciaux reste limité, et le potentiel de mise en production ou d'application technique est élevé
    • En tant que grands modèles open, ils constituent une option suffisamment compétitive pour la R&D, les agents et les environnements de personnalisation

Sécurité et tests

  • Des entraînerments et évaluations de sécurité stricts sont appliqués à tous les modèles
  • Selon le cadre de préparation d'OpenAI, la résistance au fine-tuning malveillant est testée séparément
  • En collaboration avec des experts externes en sécurité, OpenAI a défini des standards de sécurité pour les modèles open

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.