- Déclinent les performances de GPT‑5.4 dans un format rapide et efficace
- GPT‑5.4 mini progresse fortement par rapport à GPT‑5 mini en codage, raisonnement, compréhension multimodale et usage d’outils, tout en étant plus de deux fois plus rapide
- GPT‑5.4 nano est le modèle le plus petit et le moins cher, adapté à la classification, à l’extraction de données, au ranking et aux tâches de codage d’appoint
- Les deux modèles sont conçus pour des charges de travail où la latence est critique, ce qui les rend avantageux pour l’assistance au codage nécessitant de la réactivité ou pour des applications multimodales en temps réel
- Ils permettent de composer des systèmes d’IA légers optimisant l’équilibre entre vitesse, coût et performances
Présentation de GPT‑5.4 mini et nano
- GPT‑5.4 mini et nano sont des versions compactes et hautement efficaces de GPT‑5.4, conçues pour viser des réponses rapides dans des environnements à fort volume
- mini améliore le codage, le raisonnement, la compréhension multimodale et l’usage d’outils par rapport à GPT‑5 mini
- nano est le modèle le plus petit et le moins cher, avec de meilleures performances que GPT‑5 nano
- Les deux modèles sont optimisés pour des environnements où la latence a un impact direct sur l’expérience produit (assistance au codage, sous-agents, interprétation de captures d’écran, inférence d’images en temps réel, etc.)
- OpenAI souligne que « le meilleur modèle n’est pas toujours le plus grand » et met en avant la rapidité de réponse et la fiabilité dans l’usage des outils
Comparaison des performances
- Sur les principaux benchmarks, GPT‑5.4 mini obtient des scores supérieurs à GPT‑5 mini et affiche des performances proches de GPT‑5.4
- SWE‑Bench Pro: GPT‑5.4 57.7%, mini 54.4%, nano 52.4%, GPT‑5 mini 45.7%
- OSWorld‑Verified: GPT‑5.4 75.0%, mini 72.1%, nano 39.0%, GPT‑5 mini 42.0%
- Sur Terminal‑Bench 2.0, Toolathlon, GPQA Diamond et d’autres, mini affiche une forte efficacité vitesse/performance
- nano offre une efficacité coût optimale dans les environnements où la vitesse et le coût sont essentiels
Workflow de codage
- Les deux modèles conviennent aux environnements de codage nécessitant des itérations rapides
- Ils fonctionnent avec une faible latence pour l’édition de code, l’exploration de codebases, la génération front-end et les boucles de débogage
- GPT‑5.4 mini affiche un taux de réussite (pass rate) plus élevé pour une latence similaire à celui de GPT‑5 mini, avec un niveau proche de GPT‑5.4
- Dans l’environnement Codex, le grand modèle assure la planification et le jugement, tandis que mini joue un rôle de sous-agent traitant en parallèle les tâches détaillées
- Ex. : recherche de code, revue de gros fichiers, traitement de documents, etc.
- Cette architecture devient encore plus utile à mesure que la vitesse et les performances des petits modèles s’améliorent
Usage informatique et traitement multimodal
- GPT‑5.4 mini montre aussi de solides performances sur les tâches multimodales liées à l’usage de l’ordinateur
- Il interprète rapidement les captures d’écran d’interfaces utilisateur complexes pour exécuter des tâches
- Sur OSWorld‑Verified, il se rapproche de GPT‑5.4 et dépasse largement GPT‑5 mini
Modalités d’accès et tarification
- GPT‑5.4 mini
- Disponible via API, Codex et ChatGPT
- Fonctions prises en charge : entrées texte et image, usage d’outils, function calling, recherche web et fichiers, usage informatique, skills
- Fenêtre de contexte de 400k, $0.75 par million de tokens en entrée, $4.50 par million de tokens en sortie
- Dans Codex, il n’utilise que 30 % du quota GPT‑5.4 et peut traiter des tâches de codage simples pour environ un tiers du coût
- Dans ChatGPT, il est proposé comme fonctionnalité « Thinking » aux utilisateurs Free et Go, et sert de modèle de repli (fallback) de GPT‑5.4 Thinking pour les autres utilisateurs
- GPT‑5.4 nano
- Disponible uniquement via API
- $0.20 par million de tokens en entrée, $1.25 par million de tokens en sortie
Résultats détaillés supplémentaires des benchmarks
- Codage
- SWE‑Bench Pro: GPT‑5.4 mini 54.4%, nano 52.4%
- Terminal‑Bench 2.0: mini 60.0%, nano 46.3%
- Appels d’outils
- MCP Atlas: mini 57.7%, nano 56.1%
- Toolathlon: mini 42.9%, nano 35.5%
- τ2‑bench (communication): mini 93.4%, nano 92.5%
- Évaluation de l’intelligence
- GPQA Diamond: mini 88.0%, nano 82.8%
- HLE w/ tool: mini 41.5%, nano 37.7%
- Multimodal et vision
- MMMUPro w/ Python: mini 78.0%, nano 69.5%
- OmniDocBench 1.5(no tools): mini 0.1263, nano 0.2419 (plus bas est meilleur)
- Long contexte
- Graphwalks BFS 0K–128K: mini 76.3%, nano 73.4%
- MRCR v2 8‑needle 64K–128K: mini 47.7%, nano 44.2%
Évaluation globale
- GPT‑5.4 mini et nano sont des modèles légers maximisant l’équilibre entre vitesse, coût et performances, adaptés aux applications temps réel à grande échelle
- mini peut jouer un rôle central dans des architectures à sous-agents ou des systèmes multimodaux, tandis que nano est efficace pour des tâches simples et à fort volume
- Avec ces deux modèles, OpenAI fournit une base permettant de composer avec souplesse des systèmes d’IA de tailles variées
1 commentaires
Réactions sur Hacker News
J’ai vérifié les vitesses actuelles via l’API, et c’était assez impressionnant
GPT-5 Mini tournait généralement à 55~60 tokens/s, et en mode priority à environ 115~120 t/s, tandis que GPT-5.4 Mini atteignait en moyenne 180~190 t/s, et GPT-5.4 Nano environ 200 t/s
À titre de comparaison, Gemini 3 Flash était à environ 130 t/s (Gemini API), et sur Vertex autour de 120 t/s
Si on regarde aussi les prix, Claude Opus 4.6 est à $5/$25, GPT-5.4 à $2.5/$15, Gemini 3.1 Pro à $2/$12, etc.
Partage d’une grille comparant des images de pélicans générées par plusieurs modèles
Les modèles GPT sont bons pour la conversation, mais mon expérience a été mauvaise pour les tâches agentiques (agentic work)
C’est lent, et ils comprennent mal les instructions. Avec le même prompt, d’autres modèles fonctionnent bien
Opus est plus collaboratif, mais fait parfois des suggestions bizarres. Le prompt Codex est dans le dépôt OpenCode
Je pense que les sorties de petits modèles (mini) sont plus importantes que le SOTA
Les grands modèles sont déjà suffisamment bons pour que les écarts soient difficiles à percevoir, alors qu’avec les petits modèles il y a souvent un saut de qualité d’une version à l’autre
En plus, ils sont bien moins chers, donc plus faciles à déployer dans de vrais services
Je me demande pourquoi l’évaluation des LLM se fait au feeling (“vibe check”)
La plupart des comparaisons reposent sur des tests improvisés plutôt que sur des expériences systématiques
D’après les benchmarks, GPT 5.4 Nano dépasse GPT-5 Mini dans la plupart des domaines, mais le prix augmente pourtant
GPT 5 mini : entrée $0.25 / sortie $2.00 → GPT 5.4 mini : entrée $0.75 / sortie $4.50
Le score OSWorld est intéressant. Mini est à 72.1 %, contre 72.4 % pour la référence humaine, donc presque au même niveau
À moins de cas d’échec très spécifiques, on peut donc prendre Mini par défaut
Mais dans une pipeline multi-modèles, si un sous-agent nano transmet tout l’historique des messages tel quel, l’idée d’une “étape bon marché” perd tout son sens
Je me demande si quelqu’un a déjà mesuré à partir de quelle longueur de contexte nano cesse d’être plus rapide
Dans mes propres benchmarks aussi, Nano donne de meilleurs résultats que Mini
5.4 mini a un problème de cohérence, et même avec temperature 0 on obtient un mélange de bonnes et de mauvaises réponses
Voir le lien de comparaison
Le score OSWorld de 5.4 Mini est surprenant. Avant, les modèles étaient trop lents et trop imprécis pour des agents temps réel, mais maintenant ça semble devenir possible
Par exemple, on peut comparer le comportement d’une application Win32 et de sa version web pour créer des tests automatisés. Et quand on passe à grande échelle, c’est aussi rentable
Selon SWE-Bench, 5.4 mini high a une précision et un prix comparables à GPT 5.4 low, mais avec une latence plus élevée (254 s contre 171 s)
Pour les tâches simples, utiliser un niveau d’effort faible est plus avantageux pour réduire les coûts. En revanche, les performances sur les contextes longs restent faibles