OpenAI dévoile les modèles o3 et o4-mini

(openai.com)

5 points par GN⁺ 2025-04-17 | 1 commentaires | Partager sur WhatsApp

Les modèles o3 et o4-mini améliorent fortement les capacités de raisonnement de ChatGPT
Au-delà des simples questions-réponses, ces deux modèles peuvent aussi accomplir des tâches complexes comme l’utilisation combinée d’outils, l’analyse de supports visuels, la génération d’images et l’exécution de code Python
Ils ont notamment la capacité de déterminer eux-mêmes quels outils utiliser et à quel moment, puis de les exécuter lorsqu’un utilisateur pose une question
Ils sont performants pour la résolution de problèmes complexes, le raisonnement visuel et les analyses en plusieurs étapes, tout en visant un style de conversation plus humain
o3 est destiné à la résolution de problèmes complexes, tandis que o4-mini est un modèle de raisonnement rapide et efficace, avec pour objectif d’offrir à la fois hautes performances et grande efficacité
Ils disposent de capacités de raisonnement multimodal combinant image et texte, ainsi que de capacités avancées d’utilisation d’outils de type agent

Évolutions clés des fonctionnalités

OpenAI o3

Le modèle centré sur le raisonnement le plus puissant à ce jour
Des performances de pointe atteintes dans plusieurs domaines, dont le code, les mathématiques, les sciences et l’analyse visuelle
Des performances record sur des benchmarks comme Codeforces, SWE-bench et MMMU
Selon l’évaluation d’experts externes, un taux d’erreurs graves inférieur de 20 % à celui de o1
Particulièrement performant pour la génération d’idées et l’évaluation critique dans des domaines comme la programmation, le conseil, la biologie et l’ingénierie

OpenAI o4-mini

Un petit modèle optimisé pour la vitesse et l’efficacité coût
Excellente performance notamment en mathématiques, code et résolution de problèmes visuels
Des performances de premier plan dans sa catégorie sur les benchmarks AIME 2024 et 2025
De meilleures performances que o3-mini aussi dans des domaines autres que les STEM
Adapté aux environnements qui exigent un fort volume d’usage et des réponses rapides

Les deux modèles progressent par rapport aux précédents en compréhension des consignes, utilité des réponses et fiabilité
Leurs capacités de mémoire conversationnelle et de réponses personnalisées ont également été renforcées

Fonctionnalités multimodales

Les images peuvent être utilisées non comme simple objet de reconnaissance, mais comme partie intégrante du raisonnement
Les utilisateurs peuvent envoyer des photos de tableau blanc, des schémas tirés de livres, des croquis, etc.
Le modèle peut reconnaître et analyser même des images floues ou déformées
Des traitements comme la rotation, le zoom ou la transformation peuvent aussi être effectués automatiquement via des outils
Les capacités de résolution de problèmes composites fusionnant texte et informations visuelles ont été améliorées

Un mode de raisonnement centré sur l’usage des outils

o3 et o4-mini peuvent accéder à tous les outils de ChatGPT
Lorsqu’un utilisateur pose une question, ils déterminent automatiquement quels outils sont nécessaires (recherche web, analyse de fichiers, exécution de code, etc.) et les utilisent
Exemple : pour une demande de prévision de la consommation électrique estivale en Californie, ils peuvent enchaîner recherche web → génération de code Python → création de graphique
Ils permettent l’usage d’informations en temps réel, le raisonnement en plusieurs étapes et des réponses intégrant plusieurs modalités

Des performances de raisonnement efficaces

Comparaison des performances par rapport au coût

o3 par rapport à o1, et o4-mini par rapport à o3-mini, affichent une énorme amélioration de l’efficacité coût
D’après les résultats du concours de mathématiques AIME 2025, o3 et o4-mini sont tous deux moins chers et plus intelligents que leurs prédécesseurs
Dans des environnements d’usage réels, ils devraient aussi devenir des options plus intelligentes et moins coûteuses

Améliorations en matière de sécurité

Réentraînement avec de nouvelles données d’apprentissage afin d’améliorer le refus face aux menaces biologiques, malwares et prompts de jailbreak
Introduction d’un système de surveillance de sécurité basé sur un LLM capable de détecter automatiquement la dangerosité des réponses du modèle
Selon les tests internes, plus de 99 % des conversations à risque ont été détectées avec succès
Dans des domaines à risque comme la bio/chimie, la cybersécurité ou l’auto-amélioration de l’IA, les modèles ont été évalués comme inférieurs au niveau de haut risque
La validation de sécurité a été menée conformément au Preparedness Framework le plus récent

Codex CLI : un agent avancé de raisonnement pour le terminal

Un outil qui permet d’utiliser depuis le terminal les capacités de raisonnement de o3 et o4-mini
Les utilisateurs peuvent fournir directement au modèle via le CLI du code, des images, des captures d’écran, etc.
Le modèle peut interagir avec le code de l’environnement local pour effectuer du raisonnement multimodal
Disponible en open source : github.com/openai/codex
OpenAI lance aussi un programme de soutien d’un million de dollars pour les projets fondés sur Codex CLI

Modalités d’accès

Utilisateurs ChatGPT Plus, Pro et Team : accès immédiat aux modèles o3, o4-mini et o4-mini-high
Utilisateurs Enterprise et Education : accès à partir de la semaine prochaine
Les utilisateurs gratuits peuvent aussi utiliser o4-mini en sélectionnant l’option « Think »
Les utilisateurs de l’API y ont également accès dès aujourd’hui (une vérification d’organisation peut être requise)
L’API Responses doit aussi proposer diverses fonctionnalités comme les résumés de raisonnement, la conservation du raisonnement autour des appels de fonctions et l’outil de recherche web

Orientation future

Il est prévu de fusionner les capacités de raisonnement spécialisées de la série o avec les capacités conversationnelles naturelles de la série GPT
À l’avenir, les modèles devraient évoluer vers des systèmes capables d’utiliser activement des outils tout en maintenant une conversation naturelle

1 commentaires

GN⁺ 2025-04-17

Avis Hacker News

A posé une question technique sur la rétro-ingénierie de Final Fantasy VII, mais l’IA a fourni des informations erronées
- L’IA a trouvé des informations sur des forums et des sites, mais a inventé des détails incorrects, rendant le résultat inexact
- L’IA semblait savoir qu’elle ne connaissait pas la réponse, mais a tout de même donné des valeurs fausses avec assurance
- Espère que l’IA dira honnêtement qu’elle ne sait pas lorsqu’elle ne trouve pas la bonne réponse
A utilisé o3 pour installer la dernière version de WebStorm sur NixOS ; le modèle a lancé une VM NixOS, téléchargé le paquet et fourni les instructions d’installation
- Il semble même avoir effectué des tests GUI, ce qui est très impressionnant
Claude 3.7 reste le plus performant sur SWE-bench
- Les modèles d’OpenAI pourraient aussi afficher des performances similaires
A réussi avec o4-mini-high un simple « test de Turing » consistant à écrire un convertisseur en base 62 en C#
A demandé à plusieurs IA la date de la nouvelle lune d’août 2025, mais a reçu des réponses erronées dans la plupart des cas
- Claude a refusé de répondre à propos de la manière de bloquer un moteur de recherche spécifique
o3 et o4 reconnaissent l’absence d’outil de recherche web et refusent alors de répondre
- 4o et 4.1 fournissent des informations erronées
- La nouvelle fonction de recherche web est utile et permet de supprimer des scripts Python inutiles
Codex CLI est disponible en open source
Il n’y avait pas de comparaison avec Sonnet 3.7 ni Gemini Pro 2.5
Le renforcement à grande échelle tend à améliorer les performances à mesure qu’on lui alloue davantage de ressources de calcul
- On peut se demander combien de temps cette tendance va durer
En tant que consommateur, il est fatigant de suivre quel modèle il faudrait utiliser

OpenAI dévoile les modèles o3 et o4-mini

Évolutions clés des fonctionnalités

OpenAI o3

OpenAI o4-mini

Fonctionnalités multimodales

Un mode de raisonnement centré sur l’usage des outils

Des performances de raisonnement efficaces

Comparaison des performances par rapport au coût

Améliorations en matière de sécurité

Codex CLI : un agent avancé de raisonnement pour le terminal

Modalités d’accès

Orientation future

À lire aussi

1 commentaires

Avis Hacker News