- Les modèles o3 et o4-mini améliorent fortement les capacités de raisonnement de ChatGPT
- Au-delà des simples questions-réponses, ces deux modèles peuvent aussi accomplir des tâches complexes comme l’utilisation combinée d’outils, l’analyse de supports visuels, la génération d’images et l’exécution de code Python
- Ils ont notamment la capacité de déterminer eux-mêmes quels outils utiliser et à quel moment, puis de les exécuter lorsqu’un utilisateur pose une question
- Ils sont performants pour la résolution de problèmes complexes, le raisonnement visuel et les analyses en plusieurs étapes, tout en visant un style de conversation plus humain
- o3 est destiné à la résolution de problèmes complexes, tandis que o4-mini est un modèle de raisonnement rapide et efficace, avec pour objectif d’offrir à la fois hautes performances et grande efficacité
- Ils disposent de capacités de raisonnement multimodal combinant image et texte, ainsi que de capacités avancées d’utilisation d’outils de type agent
Évolutions clés des fonctionnalités
OpenAI o3
- Le modèle centré sur le raisonnement le plus puissant à ce jour
- Des performances de pointe atteintes dans plusieurs domaines, dont le code, les mathématiques, les sciences et l’analyse visuelle
- Des performances record sur des benchmarks comme Codeforces, SWE-bench et MMMU
- Selon l’évaluation d’experts externes, un taux d’erreurs graves inférieur de 20 % à celui de o1
- Particulièrement performant pour la génération d’idées et l’évaluation critique dans des domaines comme la programmation, le conseil, la biologie et l’ingénierie
OpenAI o4-mini
- Un petit modèle optimisé pour la vitesse et l’efficacité coût
- Excellente performance notamment en mathématiques, code et résolution de problèmes visuels
- Des performances de premier plan dans sa catégorie sur les benchmarks AIME 2024 et 2025
- De meilleures performances que o3-mini aussi dans des domaines autres que les STEM
- Adapté aux environnements qui exigent un fort volume d’usage et des réponses rapides
- Les deux modèles progressent par rapport aux précédents en compréhension des consignes, utilité des réponses et fiabilité
- Leurs capacités de mémoire conversationnelle et de réponses personnalisées ont également été renforcées
Fonctionnalités multimodales
- Les images peuvent être utilisées non comme simple objet de reconnaissance, mais comme partie intégrante du raisonnement
- Les utilisateurs peuvent envoyer des photos de tableau blanc, des schémas tirés de livres, des croquis, etc.
- Le modèle peut reconnaître et analyser même des images floues ou déformées
- Des traitements comme la rotation, le zoom ou la transformation peuvent aussi être effectués automatiquement via des outils
- Les capacités de résolution de problèmes composites fusionnant texte et informations visuelles ont été améliorées
Un mode de raisonnement centré sur l’usage des outils
- o3 et o4-mini peuvent accéder à tous les outils de ChatGPT
- Lorsqu’un utilisateur pose une question, ils déterminent automatiquement quels outils sont nécessaires (recherche web, analyse de fichiers, exécution de code, etc.) et les utilisent
- Exemple : pour une demande de prévision de la consommation électrique estivale en Californie, ils peuvent enchaîner recherche web → génération de code Python → création de graphique
- Ils permettent l’usage d’informations en temps réel, le raisonnement en plusieurs étapes et des réponses intégrant plusieurs modalités
Des performances de raisonnement efficaces
Comparaison des performances par rapport au coût
- o3 par rapport à o1, et o4-mini par rapport à o3-mini, affichent une énorme amélioration de l’efficacité coût
- D’après les résultats du concours de mathématiques AIME 2025, o3 et o4-mini sont tous deux moins chers et plus intelligents que leurs prédécesseurs
- Dans des environnements d’usage réels, ils devraient aussi devenir des options plus intelligentes et moins coûteuses
Améliorations en matière de sécurité
- Réentraînement avec de nouvelles données d’apprentissage afin d’améliorer le refus face aux menaces biologiques, malwares et prompts de jailbreak
- Introduction d’un système de surveillance de sécurité basé sur un LLM capable de détecter automatiquement la dangerosité des réponses du modèle
- Selon les tests internes, plus de 99 % des conversations à risque ont été détectées avec succès
- Dans des domaines à risque comme la bio/chimie, la cybersécurité ou l’auto-amélioration de l’IA, les modèles ont été évalués comme inférieurs au niveau de haut risque
- La validation de sécurité a été menée conformément au Preparedness Framework le plus récent
Codex CLI : un agent avancé de raisonnement pour le terminal
- Un outil qui permet d’utiliser depuis le terminal les capacités de raisonnement de o3 et o4-mini
- Les utilisateurs peuvent fournir directement au modèle via le CLI du code, des images, des captures d’écran, etc.
- Le modèle peut interagir avec le code de l’environnement local pour effectuer du raisonnement multimodal
- Disponible en open source : github.com/openai/codex
- OpenAI lance aussi un programme de soutien d’un million de dollars pour les projets fondés sur Codex CLI
Modalités d’accès
- Utilisateurs ChatGPT Plus, Pro et Team : accès immédiat aux modèles o3, o4-mini et o4-mini-high
- Utilisateurs Enterprise et Education : accès à partir de la semaine prochaine
- Les utilisateurs gratuits peuvent aussi utiliser o4-mini en sélectionnant l’option « Think »
- Les utilisateurs de l’API y ont également accès dès aujourd’hui (une vérification d’organisation peut être requise)
- L’API Responses doit aussi proposer diverses fonctionnalités comme les résumés de raisonnement, la conservation du raisonnement autour des appels de fonctions et l’outil de recherche web
Orientation future
- Il est prévu de fusionner les capacités de raisonnement spécialisées de la série o avec les capacités conversationnelles naturelles de la série GPT
- À l’avenir, les modèles devraient évoluer vers des systèmes capables d’utiliser activement des outils tout en maintenant une conversation naturelle
1 commentaires
Avis Hacker News
A posé une question technique sur la rétro-ingénierie de Final Fantasy VII, mais l’IA a fourni des informations erronées
A utilisé o3 pour installer la dernière version de WebStorm sur NixOS ; le modèle a lancé une VM NixOS, téléchargé le paquet et fourni les instructions d’installation
Claude 3.7 reste le plus performant sur SWE-bench
A réussi avec o4-mini-high un simple « test de Turing » consistant à écrire un convertisseur en base 62 en C#
A demandé à plusieurs IA la date de la nouvelle lune d’août 2025, mais a reçu des réponses erronées dans la plupart des cas
o3 et o4 reconnaissent l’absence d’outil de recherche web et refusent alors de répondre
Codex CLI est disponible en open source
Il n’y avait pas de comparaison avec Sonnet 3.7 ni Gemini Pro 2.5
Le renforcement à grande échelle tend à améliorer les performances à mesure qu’on lui alloue davantage de ressources de calcul
En tant que consommateur, il est fatigant de suivre quel modèle il faudrait utiliser