5 points par GN⁺ 2025-04-17 | 1 commentaires | Partager sur WhatsApp
  • Les modèles o3 et o4-mini améliorent fortement les capacités de raisonnement de ChatGPT
  • Au-delà des simples questions-réponses, ces deux modèles peuvent aussi accomplir des tâches complexes comme l’utilisation combinée d’outils, l’analyse de supports visuels, la génération d’images et l’exécution de code Python
  • Ils ont notamment la capacité de déterminer eux-mêmes quels outils utiliser et à quel moment, puis de les exécuter lorsqu’un utilisateur pose une question
  • Ils sont performants pour la résolution de problèmes complexes, le raisonnement visuel et les analyses en plusieurs étapes, tout en visant un style de conversation plus humain
  • o3 est destiné à la résolution de problèmes complexes, tandis que o4-mini est un modèle de raisonnement rapide et efficace, avec pour objectif d’offrir à la fois hautes performances et grande efficacité
  • Ils disposent de capacités de raisonnement multimodal combinant image et texte, ainsi que de capacités avancées d’utilisation d’outils de type agent

Évolutions clés des fonctionnalités

OpenAI o3

  • Le modèle centré sur le raisonnement le plus puissant à ce jour
  • Des performances de pointe atteintes dans plusieurs domaines, dont le code, les mathématiques, les sciences et l’analyse visuelle
  • Des performances record sur des benchmarks comme Codeforces, SWE-bench et MMMU
  • Selon l’évaluation d’experts externes, un taux d’erreurs graves inférieur de 20 % à celui de o1
  • Particulièrement performant pour la génération d’idées et l’évaluation critique dans des domaines comme la programmation, le conseil, la biologie et l’ingénierie

OpenAI o4-mini

  • Un petit modèle optimisé pour la vitesse et l’efficacité coût
  • Excellente performance notamment en mathématiques, code et résolution de problèmes visuels
  • Des performances de premier plan dans sa catégorie sur les benchmarks AIME 2024 et 2025
  • De meilleures performances que o3-mini aussi dans des domaines autres que les STEM
  • Adapté aux environnements qui exigent un fort volume d’usage et des réponses rapides
  • Les deux modèles progressent par rapport aux précédents en compréhension des consignes, utilité des réponses et fiabilité
  • Leurs capacités de mémoire conversationnelle et de réponses personnalisées ont également été renforcées

Fonctionnalités multimodales

  • Les images peuvent être utilisées non comme simple objet de reconnaissance, mais comme partie intégrante du raisonnement
  • Les utilisateurs peuvent envoyer des photos de tableau blanc, des schémas tirés de livres, des croquis, etc.
  • Le modèle peut reconnaître et analyser même des images floues ou déformées
  • Des traitements comme la rotation, le zoom ou la transformation peuvent aussi être effectués automatiquement via des outils
  • Les capacités de résolution de problèmes composites fusionnant texte et informations visuelles ont été améliorées

Un mode de raisonnement centré sur l’usage des outils

  • o3 et o4-mini peuvent accéder à tous les outils de ChatGPT
  • Lorsqu’un utilisateur pose une question, ils déterminent automatiquement quels outils sont nécessaires (recherche web, analyse de fichiers, exécution de code, etc.) et les utilisent
  • Exemple : pour une demande de prévision de la consommation électrique estivale en Californie, ils peuvent enchaîner recherche web → génération de code Python → création de graphique
  • Ils permettent l’usage d’informations en temps réel, le raisonnement en plusieurs étapes et des réponses intégrant plusieurs modalités

Des performances de raisonnement efficaces

Comparaison des performances par rapport au coût

  • o3 par rapport à o1, et o4-mini par rapport à o3-mini, affichent une énorme amélioration de l’efficacité coût
  • D’après les résultats du concours de mathématiques AIME 2025, o3 et o4-mini sont tous deux moins chers et plus intelligents que leurs prédécesseurs
  • Dans des environnements d’usage réels, ils devraient aussi devenir des options plus intelligentes et moins coûteuses

Améliorations en matière de sécurité

  • Réentraînement avec de nouvelles données d’apprentissage afin d’améliorer le refus face aux menaces biologiques, malwares et prompts de jailbreak
  • Introduction d’un système de surveillance de sécurité basé sur un LLM capable de détecter automatiquement la dangerosité des réponses du modèle
  • Selon les tests internes, plus de 99 % des conversations à risque ont été détectées avec succès
  • Dans des domaines à risque comme la bio/chimie, la cybersécurité ou l’auto-amélioration de l’IA, les modèles ont été évalués comme inférieurs au niveau de haut risque
  • La validation de sécurité a été menée conformément au Preparedness Framework le plus récent

Codex CLI : un agent avancé de raisonnement pour le terminal

  • Un outil qui permet d’utiliser depuis le terminal les capacités de raisonnement de o3 et o4-mini
  • Les utilisateurs peuvent fournir directement au modèle via le CLI du code, des images, des captures d’écran, etc.
  • Le modèle peut interagir avec le code de l’environnement local pour effectuer du raisonnement multimodal
  • Disponible en open source : github.com/openai/codex
  • OpenAI lance aussi un programme de soutien d’un million de dollars pour les projets fondés sur Codex CLI

Modalités d’accès

  • Utilisateurs ChatGPT Plus, Pro et Team : accès immédiat aux modèles o3, o4-mini et o4-mini-high
  • Utilisateurs Enterprise et Education : accès à partir de la semaine prochaine
  • Les utilisateurs gratuits peuvent aussi utiliser o4-mini en sélectionnant l’option « Think »
  • Les utilisateurs de l’API y ont également accès dès aujourd’hui (une vérification d’organisation peut être requise)
  • L’API Responses doit aussi proposer diverses fonctionnalités comme les résumés de raisonnement, la conservation du raisonnement autour des appels de fonctions et l’outil de recherche web

Orientation future

  • Il est prévu de fusionner les capacités de raisonnement spécialisées de la série o avec les capacités conversationnelles naturelles de la série GPT
  • À l’avenir, les modèles devraient évoluer vers des systèmes capables d’utiliser activement des outils tout en maintenant une conversation naturelle

1 commentaires

 
GN⁺ 2025-04-17
Avis Hacker News
  • A posé une question technique sur la rétro-ingénierie de Final Fantasy VII, mais l’IA a fourni des informations erronées

    • L’IA a trouvé des informations sur des forums et des sites, mais a inventé des détails incorrects, rendant le résultat inexact
    • L’IA semblait savoir qu’elle ne connaissait pas la réponse, mais a tout de même donné des valeurs fausses avec assurance
    • Espère que l’IA dira honnêtement qu’elle ne sait pas lorsqu’elle ne trouve pas la bonne réponse
  • A utilisé o3 pour installer la dernière version de WebStorm sur NixOS ; le modèle a lancé une VM NixOS, téléchargé le paquet et fourni les instructions d’installation

    • Il semble même avoir effectué des tests GUI, ce qui est très impressionnant
  • Claude 3.7 reste le plus performant sur SWE-bench

    • Les modèles d’OpenAI pourraient aussi afficher des performances similaires
  • A réussi avec o4-mini-high un simple « test de Turing » consistant à écrire un convertisseur en base 62 en C#

  • A demandé à plusieurs IA la date de la nouvelle lune d’août 2025, mais a reçu des réponses erronées dans la plupart des cas

    • Claude a refusé de répondre à propos de la manière de bloquer un moteur de recherche spécifique
  • o3 et o4 reconnaissent l’absence d’outil de recherche web et refusent alors de répondre

    • 4o et 4.1 fournissent des informations erronées
    • La nouvelle fonction de recherche web est utile et permet de supprimer des scripts Python inutiles
  • Codex CLI est disponible en open source

  • Il n’y avait pas de comparaison avec Sonnet 3.7 ni Gemini Pro 2.5

  • Le renforcement à grande échelle tend à améliorer les performances à mesure qu’on lui alloue davantage de ressources de calcul

    • On peut se demander combien de temps cette tendance va durer
  • En tant que consommateur, il est fatigant de suivre quel modèle il faudrait utiliser