13 points par GN⁺ 2025-02-01 | 1 commentaires | Partager sur WhatsApp
  • OpenAI o3-mini est le modèle le plus récent de la série de modèles de raisonnement à coût optimisé
  • Il a été officiellement lancé après une phase d’aperçu en décembre 2024, et il est disponible dans ChatGPT et via l’API
  • Il affiche d’excellentes performances dans les domaines STEM comme les sciences, les mathématiques et le code, tout en conservant un coût et une latence inférieurs à OpenAI o1-mini

Fonctionnalités principales et améliorations

  • OpenAI o3-mini est le premier petit modèle de raisonnement à prendre en charge l’appel de fonctions, les sorties structurées et les messages développeur
  • Il prend en charge le streaming et propose trois options d’effort de raisonnement — faible, moyen, élevé — afin d’optimiser son usage selon le contexte
  • Il ne prend pas en charge la vision (images) ; pour les cas nécessitant un raisonnement visuel, l’utilisation d’OpenAI o1 est recommandée
  • Il est disponible via la Chat Completions API, l’Assistants API et la Batch API, et proposé aux développeurs des niveaux d’usage API 3 à 5
  • Les utilisateurs ChatGPT Plus, Team et Pro peuvent l’utiliser dès aujourd’hui, tandis que la prise en charge pour les utilisateurs Enterprise est prévue à partir de février
  • Il remplace OpenAI o1-mini et offre une vitesse plus élevée ainsi que de meilleures capacités de raisonnement
  • La limite de messages pour les utilisateurs Plus et Team passe de 50 à 150 par rapport à l’ancien o1-mini
  • Une fonction de recherche a été ajoutée, avec des expérimentations en cours pour fournir des informations récentes accompagnées de liens web

Extension de l’accès pour les utilisateurs gratuits

  • Les utilisateurs gratuits peuvent aussi utiliser o3-mini en sélectionnant « Reason » dans la zone de saisie des messages ou en régénérant une réponse
  • C’est la première fois qu’un modèle de reasoning est proposé aux utilisateurs gratuits dans ChatGPT

Optimisation STEM et amélioration des performances

  • Il offre des performances optimisées pour les domaines STEM, avec des réponses plus rapides et plus précises que o1-mini
  • Selon l’évaluation de testeurs spécialisés, o3-mini a été préféré à o1-mini dans 56 % des cas, et une réduction de 39 % des erreurs majeures a été constatée sur les problèmes difficiles
  • Il affiche des performances comparables à o1 sur des évaluations exigeantes de raisonnement et d’intelligence comme AIME et GPQA, tout en répondant plus rapidement

Comparaisons de performances principales

  • Mathématiques (AIME 2024) :
    • Avec un effort de raisonnement faible, les performances sont similaires à celles de o1-mini ; avec un effort moyen, elles sont comparables à celles de o1
    • Avec un effort de raisonnement élevé, les performances dépassent celles de o1 et de o1-mini
  • Questions scientifiques de niveau doctorat (GPQA Diamond) :
    • Sur des problèmes de biologie, chimie et physique, il surpasse o1-mini même avec un effort de raisonnement faible
    • Avec un effort de raisonnement élevé, les performances sont comparables à celles de o1
  • Mathématiques avancées (FrontierMath) :
    • En utilisant l’outil Python, il résout plus de 32 % des problèmes dès la première tentative, y compris plus de 28 % des problèmes très difficiles (T3)
  • Programmation compétitive (Codeforces) :
    • Plus l’effort de raisonnement augmente, plus le score Elo progresse, avec de meilleures performances que o1-mini
    • Avec un effort de raisonnement moyen, les performances sont comparables à celles de o1
  • Ingénierie logicielle (SWE-bench Verified) :
    • Il enregistre les meilleures performances parmi tous les modèles publiés à ce jour sur SWEbench-verified
  • Tests de code en conditions réelles (LiveBench Coding) :
    • Il surpasse o1-high, avec des performances encore plus marquées lorsque l’effort de raisonnement est élevé
  • Évaluation des connaissances générales :
    • Il obtient de meilleurs résultats globaux que o1-mini
  • Évaluation des préférences utilisateurs :
    • D’après les tests d’experts, o3-mini a été préféré à o1-mini dans 56 % des cas, avec une réduction de 39 % des erreurs sur les problèmes difficiles

Vitesse et amélioration des performances

  • Tout en conservant une intelligence comparable à o1, il offre de meilleures performances et une efficacité accrue
  • Il produit de meilleurs résultats en mathématiques et sur les évaluations de factualité, même avec un effort de raisonnement moyen
  • Selon les résultats de tests A/B, o3-mini est 24 % plus rapide que o1-mini
    • Temps de réponse moyen : o3-mini (7,7 s) vs o1-mini (10,16 s)
    • Vitesse d’émission du premier token : o3-mini est en moyenne 2 500 ms plus rapide que o1-mini

Sécurité et mesures de protection

  • OpenAI o3-mini a été entraîné à produire des réponses plus sûres grâce à la technique de « deliberate alignment »
  • Comparé à OpenAI o1, il montre un niveau de sécurité et de résistance au jailbreak supérieur même à GPT-4o
  • Avant son lancement, il a été rigoureusement validé via des preparedness evaluations, des tests de red teaming externes et des évaluations de sécurité
  • Les résultats des évaluations des réponses à des contenus non autorisés et de la résistance au jailbreak de o3-mini sont disponibles dans la system card

Plan futur et perspectives

  • OpenAI o3-mini représente une nouvelle étape dans le développement d’une intelligence artificielle à coût optimisé
  • L’objectif reste de fournir une IA de haute qualité à davantage d’utilisateurs grâce à l’optimisation pour les usages STEM et au développement de modèles à bas coût
  • Depuis la sortie de GPT-4, OpenAI a réduit de 95 % le prix par token tout en poursuivant le développement de capacités de raisonnement de premier plan
  • Alors que l’adoption grand public de l’IA s’accélère, OpenAI prévoit de continuer à se concentrer sur le développement de modèles équilibrant intelligence, efficacité et sécurité

1 commentaires

 
GN⁺ 2025-02-01
Avis Hacker News
  • Le modèle Claude-3.5-sonnet se distingue par sa grande cohérence, tandis que les autres modèles semblent souffrir de problèmes comparables à de l’ADHD

    • Lorsqu’on essaie d’utiliser des composants shadcn dans une app NextJS, sonnet s’en sort presque parfaitement, alors que les autres modèles tentent d’utiliser radix-ui
    • Le modèle o3-mini rencontre le même problème
    • Il est possible que le jeu d’instructions de cursor soit en cause
    • sonnet reste la seule option de codage réellement viable
  • Les réponses de o3-mini sont préférées à celles de o1-mini dans 56 % des cas

    • Quand les deux réponses font 2 000 mots, on a tendance à choisir celle qui répond le plus vite à la question
    • Ce sondage est dénué de sens, et un taux de 50 % revient à tirer à pile ou face
  • Partage d’un résumé du fil généré avec o3-mini

    • 18 936 en entrée, 2 905 en sortie pour un coût de 3,3612 cents
  • En codage IA, o3-mini obtient un score proche de o1, pour un coût 10 fois inférieur

    • o3-mini, avec un effort intermédiaire, se situe entre R1 et Sonnet en termes de score
  • Annonce d’une nouvelle version de l’outil CLI LLM, compatible avec le nouveau modèle et l’option reasoning_effort

    • Un exemple d’utilisation est partagé
  • Il est signalé que le score SWE Bench de o3-mini est tombé de 61 % à 49,3 %

    • o3-mini affiche des performances comparables à Claude sur des tâches de codage réelles
  • Il est mentionné que o3-mini-high a réussi à identifier la cause racine d’un seg fault

    • Il a résolu un problème que o1 avait auparavant manqué
  • Une hausse notable a été observée sur SWE-Bench, et cela vaut la peine de réessayer des tâches que o1-mini ne parvenait pas à traiter auparavant

    • Différence de coût de 4 $/million de tokens de sortie contre 60 $
  • L’écosystème de l’IA évolue rapidement, avec l’arrivée de nouveaux modèles

    • On s’interroge sur l’impact que les évolutions de l’IA pourraient avoir sur cette release et les suivantes