3 points par GN⁺ 2026-03-18 | 1 commentaires | Partager sur WhatsApp
  • Déclinent les performances de GPT‑5.4 dans un format rapide et efficace
  • GPT‑5.4 mini progresse fortement par rapport à GPT‑5 mini en codage, raisonnement, compréhension multimodale et usage d’outils, tout en étant plus de deux fois plus rapide
  • GPT‑5.4 nano est le modèle le plus petit et le moins cher, adapté à la classification, à l’extraction de données, au ranking et aux tâches de codage d’appoint
  • Les deux modèles sont conçus pour des charges de travail où la latence est critique, ce qui les rend avantageux pour l’assistance au codage nécessitant de la réactivité ou pour des applications multimodales en temps réel
  • Ils permettent de composer des systèmes d’IA légers optimisant l’équilibre entre vitesse, coût et performances

Présentation de GPT‑5.4 mini et nano

  • GPT‑5.4 mini et nano sont des versions compactes et hautement efficaces de GPT‑5.4, conçues pour viser des réponses rapides dans des environnements à fort volume
    • mini améliore le codage, le raisonnement, la compréhension multimodale et l’usage d’outils par rapport à GPT‑5 mini
    • nano est le modèle le plus petit et le moins cher, avec de meilleures performances que GPT‑5 nano
  • Les deux modèles sont optimisés pour des environnements où la latence a un impact direct sur l’expérience produit (assistance au codage, sous-agents, interprétation de captures d’écran, inférence d’images en temps réel, etc.)
  • OpenAI souligne que « le meilleur modèle n’est pas toujours le plus grand » et met en avant la rapidité de réponse et la fiabilité dans l’usage des outils

Comparaison des performances

  • Sur les principaux benchmarks, GPT‑5.4 mini obtient des scores supérieurs à GPT‑5 mini et affiche des performances proches de GPT‑5.4
    • SWE‑Bench Pro: GPT‑5.4 57.7%, mini 54.4%, nano 52.4%, GPT‑5 mini 45.7%
    • OSWorld‑Verified: GPT‑5.4 75.0%, mini 72.1%, nano 39.0%, GPT‑5 mini 42.0%
  • Sur Terminal‑Bench 2.0, Toolathlon, GPQA Diamond et d’autres, mini affiche une forte efficacité vitesse/performance
  • nano offre une efficacité coût optimale dans les environnements où la vitesse et le coût sont essentiels

Workflow de codage

  • Les deux modèles conviennent aux environnements de codage nécessitant des itérations rapides
    • Ils fonctionnent avec une faible latence pour l’édition de code, l’exploration de codebases, la génération front-end et les boucles de débogage
  • GPT‑5.4 mini affiche un taux de réussite (pass rate) plus élevé pour une latence similaire à celui de GPT‑5 mini, avec un niveau proche de GPT‑5.4
  • Dans l’environnement Codex, le grand modèle assure la planification et le jugement, tandis que mini joue un rôle de sous-agent traitant en parallèle les tâches détaillées
    • Ex. : recherche de code, revue de gros fichiers, traitement de documents, etc.
  • Cette architecture devient encore plus utile à mesure que la vitesse et les performances des petits modèles s’améliorent

Usage informatique et traitement multimodal

  • GPT‑5.4 mini montre aussi de solides performances sur les tâches multimodales liées à l’usage de l’ordinateur
    • Il interprète rapidement les captures d’écran d’interfaces utilisateur complexes pour exécuter des tâches
    • Sur OSWorld‑Verified, il se rapproche de GPT‑5.4 et dépasse largement GPT‑5 mini

Modalités d’accès et tarification

  • GPT‑5.4 mini
    • Disponible via API, Codex et ChatGPT
    • Fonctions prises en charge : entrées texte et image, usage d’outils, function calling, recherche web et fichiers, usage informatique, skills
    • Fenêtre de contexte de 400k, $0.75 par million de tokens en entrée, $4.50 par million de tokens en sortie
    • Dans Codex, il n’utilise que 30 % du quota GPT‑5.4 et peut traiter des tâches de codage simples pour environ un tiers du coût
    • Dans ChatGPT, il est proposé comme fonctionnalité « Thinking » aux utilisateurs Free et Go, et sert de modèle de repli (fallback) de GPT‑5.4 Thinking pour les autres utilisateurs
  • GPT‑5.4 nano
    • Disponible uniquement via API
    • $0.20 par million de tokens en entrée, $1.25 par million de tokens en sortie

Résultats détaillés supplémentaires des benchmarks

  • Codage
    • SWE‑Bench Pro: GPT‑5.4 mini 54.4%, nano 52.4%
    • Terminal‑Bench 2.0: mini 60.0%, nano 46.3%
  • Appels d’outils
    • MCP Atlas: mini 57.7%, nano 56.1%
    • Toolathlon: mini 42.9%, nano 35.5%
    • τ2‑bench (communication): mini 93.4%, nano 92.5%
  • Évaluation de l’intelligence
    • GPQA Diamond: mini 88.0%, nano 82.8%
    • HLE w/ tool: mini 41.5%, nano 37.7%
  • Multimodal et vision
    • MMMUPro w/ Python: mini 78.0%, nano 69.5%
    • OmniDocBench 1.5(no tools): mini 0.1263, nano 0.2419 (plus bas est meilleur)
  • Long contexte
    • Graphwalks BFS 0K–128K: mini 76.3%, nano 73.4%
    • MRCR v2 8‑needle 64K–128K: mini 47.7%, nano 44.2%

Évaluation globale

  • GPT‑5.4 mini et nano sont des modèles légers maximisant l’équilibre entre vitesse, coût et performances, adaptés aux applications temps réel à grande échelle
  • mini peut jouer un rôle central dans des architectures à sous-agents ou des systèmes multimodaux, tandis que nano est efficace pour des tâches simples et à fort volume
  • Avec ces deux modèles, OpenAI fournit une base permettant de composer avec souplesse des systèmes d’IA de tailles variées

1 commentaires

 
GN⁺ 2026-03-18
Réactions sur Hacker News
  • J’ai vérifié les vitesses actuelles via l’API, et c’était assez impressionnant
    GPT-5 Mini tournait généralement à 55~60 tokens/s, et en mode priority à environ 115~120 t/s, tandis que GPT-5.4 Mini atteignait en moyenne 180~190 t/s, et GPT-5.4 Nano environ 200 t/s
    À titre de comparaison, Gemini 3 Flash était à environ 130 t/s (Gemini API), et sur Vertex autour de 120 t/s
    Si on regarde aussi les prix, Claude Opus 4.6 est à $5/$25, GPT-5.4 à $2.5/$15, Gemini 3.1 Pro à $2/$12, etc.

    • Le token/s ne suffit pas à lui seul. Il faut aussi regarder le TTFT (temps d’attente du premier token) et la latence globale pour connaître les performances réelles d’une API
    • Si la vitesse est élevée mais que l’étape de réflexion (reasoning) est longue, cela peut au contraire être plus lent. Un token/s plus faible peut être plus efficace si le raisonnement est plus concentré
    • Google semble avantagé en ressources et en coûts, donc je me demande pourquoi les gens choisissent quand même GPT ou Claude
    • J’aimerais qu’on mesure aussi la vitesse de traitement des prompts chez les principaux fournisseurs, pas seulement la vitesse de sortie
    • Le prix des modèles bon marché a pas mal augmenté. Avant c’était confortable, maintenant ça devient lourd
  • Partage d’une grille comparant des images de pélicans générées par plusieurs modèles

    • Ce type d’exercice est probablement désormais présent dans les données d’entraînement
    • Certaines images ont un côté cauchemardesque, mais c’est justement pour ça que je les aime bien
    • Personnellement, c’est le pélican de la version nano xhigh que je préfère
    • Le nano medium donne l’impression d’avoir été généré au moment où le serveur prenait feu
  • Les modèles GPT sont bons pour la conversation, mais mon expérience a été mauvaise pour les tâches agentiques (agentic work)
    C’est lent, et ils comprennent mal les instructions. Avec le même prompt, d’autres modèles fonctionnent bien

    • Le 5.4 Mini est assez rapide pour des applications vocales, mais il exécute mal les consignes. Je pense essayer de fine-tuner Qwen 3.5 9B
    • Gemini 3.1 et Claude Opus 4.6 ont passé le seuil attendu, mais la famille ChatGPT est trop orientée conversation. La tenue du contexte est faible, donc il faut vérifier les résultats
    • GPT 5.2 Codex perd souvent le contexte, tandis que Claude fonctionne beaucoup plus naturellement dans GitHub Copilot. GPT met 20 minutes même pour un simple refactoring
    • J’ai fait de l’analyse de données avec 5.4 Pro, mais c’était beaucoup trop lent. Sonnet 4.6 était bien plus rapide. Pour la plupart des tâches, du Haiku suffit largement
    • À l’inverse, je trouve que Codex est le meilleur. Dommage qu’il ait un style trop froid, ce qui rend les échanges courts et difficiles à orienter
      Opus est plus collaboratif, mais fait parfois des suggestions bizarres. Le prompt Codex est dans le dépôt OpenCode
  • Je pense que les sorties de petits modèles (mini) sont plus importantes que le SOTA
    Les grands modèles sont déjà suffisamment bons pour que les écarts soient difficiles à percevoir, alors qu’avec les petits modèles il y a souvent un saut de qualité d’une version à l’autre
    En plus, ils sont bien moins chers, donc plus faciles à déployer dans de vrais services

    • L’app web Gemini bascule automatiquement vers Flash, et quand la réponse devient étrange ou que la logique déraille, on le remarque tout de suite. Ce n’est pas encore suffisant pour un usage quotidien, mais c’est largement assez bon pour de l’automatisation simple
    • GPT 5.4 est faible sur les interfaces Svelte, et Gemini a tendance à implémenter directement au lieu de discuter. Claude abuse du type any en TypeScript
    • Les résultats de comparaison montrent que l’écart entre 5 mini et 5.4 mini est faible, mais que 5.4 mini est instable tout en ayant un meilleur taux de réussite
    • En pratique, les prix montent. GPT 5.4 mini coûte environ 3 fois plus que 5.0 mini. Gemini 3.1 Flash Lite est aussi plus cher qu’avant
    • Ce n’est pas si bon marché que ça face aux modèles open source, et l’intelligence est plus faible. À moins de devoir minimiser la latence, il y a peu de raisons de l’utiliser
  • Je me demande pourquoi l’évaluation des LLM se fait au feeling (“vibe check”)
    La plupart des comparaisons reposent sur des tests improvisés plutôt que sur des expériences systématiques

    • Ce n’est pas qu’un simple problème d’ingénierie. C’est aussi parce que la définition même de l’intelligence et des capacités reste incomplète. Les benchmarks existants ont beaucoup de défauts
    • Quand on crée un benchmark, on entend vite qu’il est “inutile”, mais juger au feeling est encore bien pire
    • Les jeux d’évaluation publics sont vite neutralisés par le problème de la forêt sombre. Leur pouvoir prédictif étant faible, il vaudrait peut-être mieux traiter scientifiquement les approches informelles
    • Certains ont même plaisanté en disant : « on évalue au feeling, et on code au feeling »
  • D’après les benchmarks, GPT 5.4 Nano dépasse GPT-5 Mini dans la plupart des domaines, mais le prix augmente pourtant
    GPT 5 mini : entrée $0.25 / sortie $2.00 → GPT 5.4 mini : entrée $0.75 / sortie $4.50

    • Les modèles sont plus chers, mais le rapport performance/prix s’améliore. Il n’y a peut-être plus vraiment de raison de garder des modèles moins performants
    • Comme c’est un modèle plus gros, son coût de service ne peut pas être plus bas. Si les performances ont progressé, il est normal qu’il soit plus cher
  • Le score OSWorld est intéressant. Mini est à 72.1 %, contre 72.4 % pour la référence humaine, donc presque au même niveau
    À moins de cas d’échec très spécifiques, on peut donc prendre Mini par défaut
    Mais dans une pipeline multi-modèles, si un sous-agent nano transmet tout l’historique des messages tel quel, l’idée d’une “étape bon marché” perd tout son sens
    Je me demande si quelqu’un a déjà mesuré à partir de quelle longueur de contexte nano cesse d’être plus rapide

    • (Ça ressemble à un bot)
  • Dans mes propres benchmarks aussi, Nano donne de meilleurs résultats que Mini
    5.4 mini a un problème de cohérence, et même avec temperature 0 on obtient un mélange de bonnes et de mauvaises réponses
    Voir le lien de comparaison

  • Le score OSWorld de 5.4 Mini est surprenant. Avant, les modèles étaient trop lents et trop imprécis pour des agents temps réel, mais maintenant ça semble devenir possible

    • Certains balayent OSWorld en parlant d’“OpenClaw”, mais c’est un outil puissant pour une évaluation sûre des interactions complètes
      Par exemple, on peut comparer le comportement d’une application Win32 et de sa version web pour créer des tests automatisés. Et quand on passe à grande échelle, c’est aussi rentable
  • Selon SWE-Bench, 5.4 mini high a une précision et un prix comparables à GPT 5.4 low, mais avec une latence plus élevée (254 s contre 171 s)
    Pour les tâches simples, utiliser un niveau d’effort faible est plus avantageux pour réduire les coûts. En revanche, les performances sur les contextes longs restent faibles