- OpenAI o3-mini est le modèle le plus récent de la série de modèles de raisonnement à coût optimisé
- Il a été officiellement lancé après une phase d’aperçu en décembre 2024, et il est disponible dans ChatGPT et via l’API
- Il affiche d’excellentes performances dans les domaines STEM comme les sciences, les mathématiques et le code, tout en conservant un coût et une latence inférieurs à OpenAI o1-mini
Fonctionnalités principales et améliorations
- OpenAI o3-mini est le premier petit modèle de raisonnement à prendre en charge l’appel de fonctions, les sorties structurées et les messages développeur
- Il prend en charge le streaming et propose trois options d’effort de raisonnement — faible, moyen, élevé — afin d’optimiser son usage selon le contexte
- Il ne prend pas en charge la vision (images) ; pour les cas nécessitant un raisonnement visuel, l’utilisation d’OpenAI o1 est recommandée
- Il est disponible via la Chat Completions API, l’Assistants API et la Batch API, et proposé aux développeurs des niveaux d’usage API 3 à 5
- Les utilisateurs ChatGPT Plus, Team et Pro peuvent l’utiliser dès aujourd’hui, tandis que la prise en charge pour les utilisateurs Enterprise est prévue à partir de février
- Il remplace OpenAI o1-mini et offre une vitesse plus élevée ainsi que de meilleures capacités de raisonnement
- La limite de messages pour les utilisateurs Plus et Team passe de 50 à 150 par rapport à l’ancien o1-mini
- Une fonction de recherche a été ajoutée, avec des expérimentations en cours pour fournir des informations récentes accompagnées de liens web
Extension de l’accès pour les utilisateurs gratuits
- Les utilisateurs gratuits peuvent aussi utiliser o3-mini en sélectionnant « Reason » dans la zone de saisie des messages ou en régénérant une réponse
- C’est la première fois qu’un modèle de reasoning est proposé aux utilisateurs gratuits dans ChatGPT
Optimisation STEM et amélioration des performances
- Il offre des performances optimisées pour les domaines STEM, avec des réponses plus rapides et plus précises que o1-mini
- Selon l’évaluation de testeurs spécialisés, o3-mini a été préféré à o1-mini dans 56 % des cas, et une réduction de 39 % des erreurs majeures a été constatée sur les problèmes difficiles
- Il affiche des performances comparables à o1 sur des évaluations exigeantes de raisonnement et d’intelligence comme AIME et GPQA, tout en répondant plus rapidement
Comparaisons de performances principales
- Mathématiques (AIME 2024) :
- Avec un effort de raisonnement faible, les performances sont similaires à celles de o1-mini ; avec un effort moyen, elles sont comparables à celles de o1
- Avec un effort de raisonnement élevé, les performances dépassent celles de o1 et de o1-mini
- Questions scientifiques de niveau doctorat (GPQA Diamond) :
- Sur des problèmes de biologie, chimie et physique, il surpasse o1-mini même avec un effort de raisonnement faible
- Avec un effort de raisonnement élevé, les performances sont comparables à celles de o1
- Mathématiques avancées (FrontierMath) :
- En utilisant l’outil Python, il résout plus de 32 % des problèmes dès la première tentative, y compris plus de 28 % des problèmes très difficiles (T3)
- Programmation compétitive (Codeforces) :
- Plus l’effort de raisonnement augmente, plus le score Elo progresse, avec de meilleures performances que o1-mini
- Avec un effort de raisonnement moyen, les performances sont comparables à celles de o1
- Ingénierie logicielle (SWE-bench Verified) :
- Il enregistre les meilleures performances parmi tous les modèles publiés à ce jour sur SWEbench-verified
- Tests de code en conditions réelles (LiveBench Coding) :
- Il surpasse o1-high, avec des performances encore plus marquées lorsque l’effort de raisonnement est élevé
- Évaluation des connaissances générales :
- Il obtient de meilleurs résultats globaux que o1-mini
- Évaluation des préférences utilisateurs :
- D’après les tests d’experts, o3-mini a été préféré à o1-mini dans 56 % des cas, avec une réduction de 39 % des erreurs sur les problèmes difficiles
Vitesse et amélioration des performances
- Tout en conservant une intelligence comparable à o1, il offre de meilleures performances et une efficacité accrue
- Il produit de meilleurs résultats en mathématiques et sur les évaluations de factualité, même avec un effort de raisonnement moyen
- Selon les résultats de tests A/B, o3-mini est 24 % plus rapide que o1-mini
- Temps de réponse moyen : o3-mini (7,7 s) vs o1-mini (10,16 s)
- Vitesse d’émission du premier token : o3-mini est en moyenne 2 500 ms plus rapide que o1-mini
Sécurité et mesures de protection
- OpenAI o3-mini a été entraîné à produire des réponses plus sûres grâce à la technique de « deliberate alignment »
- Comparé à OpenAI o1, il montre un niveau de sécurité et de résistance au jailbreak supérieur même à GPT-4o
- Avant son lancement, il a été rigoureusement validé via des preparedness evaluations, des tests de red teaming externes et des évaluations de sécurité
- Les résultats des évaluations des réponses à des contenus non autorisés et de la résistance au jailbreak de o3-mini sont disponibles dans la system card
Plan futur et perspectives
- OpenAI o3-mini représente une nouvelle étape dans le développement d’une intelligence artificielle à coût optimisé
- L’objectif reste de fournir une IA de haute qualité à davantage d’utilisateurs grâce à l’optimisation pour les usages STEM et au développement de modèles à bas coût
- Depuis la sortie de GPT-4, OpenAI a réduit de 95 % le prix par token tout en poursuivant le développement de capacités de raisonnement de premier plan
- Alors que l’adoption grand public de l’IA s’accélère, OpenAI prévoit de continuer à se concentrer sur le développement de modèles équilibrant intelligence, efficacité et sécurité
1 commentaires
Avis Hacker News
Le modèle Claude-3.5-sonnet se distingue par sa grande cohérence, tandis que les autres modèles semblent souffrir de problèmes comparables à de l’ADHD
Les réponses de o3-mini sont préférées à celles de o1-mini dans 56 % des cas
Partage d’un résumé du fil généré avec o3-mini
En codage IA, o3-mini obtient un score proche de o1, pour un coût 10 fois inférieur
Annonce d’une nouvelle version de l’outil CLI LLM, compatible avec le nouveau modèle et l’option reasoning_effort
Il est signalé que le score SWE Bench de o3-mini est tombé de 61 % à 49,3 %
Il est mentionné que o3-mini-high a réussi à identifier la cause racine d’un seg fault
Une hausse notable a été observée sur SWE-Bench, et cela vaut la peine de réessayer des tâches que o1-mini ne parvenait pas à traiter auparavant
L’écosystème de l’IA évolue rapidement, avec l’arrivée de nouveaux modèles