Lancement d’OpenAI o3-Mini

(openai.com)

13 points par GN⁺ 2025-02-01 | 1 commentaires | Partager sur WhatsApp

OpenAI o3-mini est le modèle le plus récent de la série de modèles de raisonnement à coût optimisé
Il a été officiellement lancé après une phase d’aperçu en décembre 2024, et il est disponible dans ChatGPT et via l’API
Il affiche d’excellentes performances dans les domaines STEM comme les sciences, les mathématiques et le code, tout en conservant un coût et une latence inférieurs à OpenAI o1-mini

Fonctionnalités principales et améliorations

OpenAI o3-mini est le premier petit modèle de raisonnement à prendre en charge l’appel de fonctions, les sorties structurées et les messages développeur
Il prend en charge le streaming et propose trois options d’effort de raisonnement — faible, moyen, élevé — afin d’optimiser son usage selon le contexte
Il ne prend pas en charge la vision (images) ; pour les cas nécessitant un raisonnement visuel, l’utilisation d’OpenAI o1 est recommandée
Il est disponible via la Chat Completions API, l’Assistants API et la Batch API, et proposé aux développeurs des niveaux d’usage API 3 à 5
Les utilisateurs ChatGPT Plus, Team et Pro peuvent l’utiliser dès aujourd’hui, tandis que la prise en charge pour les utilisateurs Enterprise est prévue à partir de février
Il remplace OpenAI o1-mini et offre une vitesse plus élevée ainsi que de meilleures capacités de raisonnement
La limite de messages pour les utilisateurs Plus et Team passe de 50 à 150 par rapport à l’ancien o1-mini
Une fonction de recherche a été ajoutée, avec des expérimentations en cours pour fournir des informations récentes accompagnées de liens web

Extension de l’accès pour les utilisateurs gratuits

Les utilisateurs gratuits peuvent aussi utiliser o3-mini en sélectionnant « Reason » dans la zone de saisie des messages ou en régénérant une réponse
C’est la première fois qu’un modèle de reasoning est proposé aux utilisateurs gratuits dans ChatGPT

Optimisation STEM et amélioration des performances

Il offre des performances optimisées pour les domaines STEM, avec des réponses plus rapides et plus précises que o1-mini
Selon l’évaluation de testeurs spécialisés, o3-mini a été préféré à o1-mini dans 56 % des cas, et une réduction de 39 % des erreurs majeures a été constatée sur les problèmes difficiles
Il affiche des performances comparables à o1 sur des évaluations exigeantes de raisonnement et d’intelligence comme AIME et GPQA, tout en répondant plus rapidement

Comparaisons de performances principales

Mathématiques (AIME 2024) :
- Avec un effort de raisonnement faible, les performances sont similaires à celles de o1-mini ; avec un effort moyen, elles sont comparables à celles de o1
- Avec un effort de raisonnement élevé, les performances dépassent celles de o1 et de o1-mini
Questions scientifiques de niveau doctorat (GPQA Diamond) :
- Sur des problèmes de biologie, chimie et physique, il surpasse o1-mini même avec un effort de raisonnement faible
- Avec un effort de raisonnement élevé, les performances sont comparables à celles de o1
Mathématiques avancées (FrontierMath) :
- En utilisant l’outil Python, il résout plus de 32 % des problèmes dès la première tentative, y compris plus de 28 % des problèmes très difficiles (T3)
Programmation compétitive (Codeforces) :
- Plus l’effort de raisonnement augmente, plus le score Elo progresse, avec de meilleures performances que o1-mini
- Avec un effort de raisonnement moyen, les performances sont comparables à celles de o1
Ingénierie logicielle (SWE-bench Verified) :
- Il enregistre les meilleures performances parmi tous les modèles publiés à ce jour sur SWEbench-verified
Tests de code en conditions réelles (LiveBench Coding) :
- Il surpasse o1-high, avec des performances encore plus marquées lorsque l’effort de raisonnement est élevé
Évaluation des connaissances générales :
- Il obtient de meilleurs résultats globaux que o1-mini
Évaluation des préférences utilisateurs :
- D’après les tests d’experts, o3-mini a été préféré à o1-mini dans 56 % des cas, avec une réduction de 39 % des erreurs sur les problèmes difficiles

Vitesse et amélioration des performances

Tout en conservant une intelligence comparable à o1, il offre de meilleures performances et une efficacité accrue
Il produit de meilleurs résultats en mathématiques et sur les évaluations de factualité, même avec un effort de raisonnement moyen
Selon les résultats de tests A/B, o3-mini est 24 % plus rapide que o1-mini
- Temps de réponse moyen : o3-mini (7,7 s) vs o1-mini (10,16 s)
- Vitesse d’émission du premier token : o3-mini est en moyenne 2 500 ms plus rapide que o1-mini

Sécurité et mesures de protection

OpenAI o3-mini a été entraîné à produire des réponses plus sûres grâce à la technique de « deliberate alignment »
Comparé à OpenAI o1, il montre un niveau de sécurité et de résistance au jailbreak supérieur même à GPT-4o
Avant son lancement, il a été rigoureusement validé via des preparedness evaluations, des tests de red teaming externes et des évaluations de sécurité
Les résultats des évaluations des réponses à des contenus non autorisés et de la résistance au jailbreak de o3-mini sont disponibles dans la system card

Plan futur et perspectives

OpenAI o3-mini représente une nouvelle étape dans le développement d’une intelligence artificielle à coût optimisé
L’objectif reste de fournir une IA de haute qualité à davantage d’utilisateurs grâce à l’optimisation pour les usages STEM et au développement de modèles à bas coût
Depuis la sortie de GPT-4, OpenAI a réduit de 95 % le prix par token tout en poursuivant le développement de capacités de raisonnement de premier plan
Alors que l’adoption grand public de l’IA s’accélère, OpenAI prévoit de continuer à se concentrer sur le développement de modèles équilibrant intelligence, efficacité et sécurité

1 commentaires

GN⁺ 2025-02-01

Avis Hacker News

Le modèle Claude-3.5-sonnet se distingue par sa grande cohérence, tandis que les autres modèles semblent souffrir de problèmes comparables à de l’ADHD
- Lorsqu’on essaie d’utiliser des composants shadcn dans une app NextJS, sonnet s’en sort presque parfaitement, alors que les autres modèles tentent d’utiliser radix-ui
- Le modèle o3-mini rencontre le même problème
- Il est possible que le jeu d’instructions de cursor soit en cause
- sonnet reste la seule option de codage réellement viable
Les réponses de o3-mini sont préférées à celles de o1-mini dans 56 % des cas
- Quand les deux réponses font 2 000 mots, on a tendance à choisir celle qui répond le plus vite à la question
- Ce sondage est dénué de sens, et un taux de 50 % revient à tirer à pile ou face
Partage d’un résumé du fil généré avec o3-mini
- 18 936 en entrée, 2 905 en sortie pour un coût de 3,3612 cents
En codage IA, o3-mini obtient un score proche de o1, pour un coût 10 fois inférieur
- o3-mini, avec un effort intermédiaire, se situe entre R1 et Sonnet en termes de score
Annonce d’une nouvelle version de l’outil CLI LLM, compatible avec le nouveau modèle et l’option reasoning_effort
- Un exemple d’utilisation est partagé
Il est signalé que le score SWE Bench de o3-mini est tombé de 61 % à 49,3 %
- o3-mini affiche des performances comparables à Claude sur des tâches de codage réelles
Il est mentionné que o3-mini-high a réussi à identifier la cause racine d’un seg fault
- Il a résolu un problème que o1 avait auparavant manqué
Une hausse notable a été observée sur SWE-Bench, et cela vaut la peine de réessayer des tâches que o1-mini ne parvenait pas à traiter auparavant
- Différence de coût de 4 $/million de tokens de sortie contre 60 $
L’écosystème de l’IA évolue rapidement, avec l’arrivée de nouveaux modèles
- On s’interroge sur l’impact que les évolutions de l’IA pourraient avoir sur cette release et les suivantes

Lancement d’OpenAI o3-Mini

Fonctionnalités principales et améliorations

Extension de l’accès pour les utilisateurs gratuits

Optimisation STEM et amélioration des performances

Comparaisons de performances principales

Vitesse et amélioration des performances

Sécurité et mesures de protection

Plan futur et perspectives

À lire aussi

1 commentaires

Avis Hacker News