Présentation de GPT‑5.2
(openai.com)- GPT‑5.2 est la série de modèles d’IA la plus puissante pour les tâches de connaissance spécialisée, avec de meilleures capacités de rédaction de code, de reconnaissance d’images et de réalisation de projets complexes
- Sur l’évaluation GDPval, elle surpasse ou fait jeu égal avec des experts dans 70,9 % de 44 tâches de connaissances métiers, avec une vitesse 11 fois supérieure et un coût inférieur à 1 %
- SWE‑Bench Pro 55,6 % , GPQA Diamond 92,4 % , ARC‑AGI‑1 86,2 % et autres, avec des performances de pointe sur les principaux benchmarks
- Compréhension de long contexte (256k jetons) , traitement d’informations visuelles, utilisation d’outils (98,7 %) : améliorations importantes par rapport à GPT‑5.1
- Déploiement progressif dans ChatGPT et via l’API, avec pour objectif d’accroître la productivité et la fiabilité des professionnels
Aperçu de GPT‑5.2
- GPT‑5.2 est une série de modèles IA pour les tâches de connaissance professionnelle qui améliore l’élaboration de feuilles de calcul, la création de présentations, la rédaction de code, la reconnaissance d’images, la compréhension de longs textes, l’utilisation d’outils et la réalisation de projets complexes
- Les utilisateurs de ChatGPT Enterprise économisent déjà en moyenne 40 à 60 minutes par jour, soit plus de 10 heures par semaine, et GPT‑5.2 devrait encore amplifier cette efficacité
- Dans ChatGPT, il sera proposé en trois variantes : Instant, Thinking et Pro ; dans l’API, il sera disponible immédiatement pour les développeurs
Performances du modèle
- GPT‑5.2 Thinking atteint pour la première fois des résultats au-delà du niveau expert dans l’évaluation GDPval
- Sur 44 tâches de connaissance dans des métiers, il surpasse ou fait jeu égal avec des experts dans 70,9 % des cas
- 11 fois plus rapide que les experts, avec un coût inférieur à 1 %
- Lors d’une évaluation interne, le score sur une tâche de modélisation de feuilles de calcul pour l’analyse bancaire a progressé de 9,3 % par rapport à GPT‑5.1 (59,1 % → 68,4 %)
- Les performances en ingénierie logicielle ont progressé avec SWE‑Bench Pro 55,6 % et SWE‑Bench Verified 80 %
- Plus stable pour le débogage réel de code, l’implémentation de fonctionnalités, le refactoring et les opérations de déploiement
- Les performances en développement frontend et en travail d’interface utilisateur 3D sont également améliorées par rapport à GPT‑5.1
- Le taux d’erreur de réponse a baissé de 30 %, réduisant la fréquence des hallucinations
Compréhension de contexte long et reconnaissance visuelle
- GPT‑5.2 obtient le meilleur résultat sur l’évaluation OpenAI MRCRv2 pour la compréhension intégrée de documents longs
- Atteinte d’une précision proche de 100 % jusqu’à 256k jetons
- Bien adapté à l’analyse de rapports, contrats, thèses et autres documents longs
- Compatible avec l’endpoint
/compact, il prend en charge des workflows d’extension de contexte - Les performances visuelles sont améliorées, avec une réduction du taux d’erreurs d’environ moitié sur les graphiques, tableaux de bord et captures d’écran d’UI
- Meilleure compréhension de la disposition spatiale des éléments au sein des images
Utilisation d’outils et tâches complexes
- Tau2‑bench Telecom 98,7 % en tête pour l’utilisation d’outils
- Les capacités de gestion de workflows de bout en bout ont été renforcées pour du support client multi-étapes, la collecte de données, l’analyse et la génération de résultats
- Exemple : traitement complet d’une procédure de service client complexe, comme un retard de vol, une correspondance, puis une demande d’indemnisation
Capacités de science, de maths et de raisonnement
- GPQA Diamond 92,4 % , FrontierMath Tier 1–3 40,3 % , ARC‑AGI‑1 86,2 % , ARC‑AGI‑2 52,9 % avec des records sur plusieurs benchmarks académiques majeurs
- GPT‑5.2 Pro dépasse les 90 % sur ARC‑AGI‑1, avec un gain de rentabilité de 390 fois
- Les versions GPT‑5.2 Pro et Thinking peuvent être utilisées pour accélérer la recherche scientifique
- Un cas d’usage est présenté avec une proposition de preuve d’un théorème de théorie statistique validée expérimentalement
Expérience d’utilisation dans ChatGPT
- GPT‑5.2 Instant : réponses rapides avec des explications claires, adapté aux tâches et apprentissages quotidiens
- GPT‑5.2 Thinking : adapté aux tâches complexes telles que la rédaction de code, le résumé de longs documents, la résolution de problèmes mathématiques et logiques, et la planification
- GPT‑5.2 Pro : fournit des réponses très fiables sur des questions difficiles, avec moins d’erreurs
Renforcement de la sécurité
- GPT‑5.2 s’appuie sur la recherche Safe Completion de GPT‑5, avec une amélioration des réponses sur les conversations liées au suicide, à la santé mentale et à la dépendance émotionnelle
- Diminution du taux de réponses inappropriées par rapport à GPT‑5.1
- Introduction d’un modèle de prédiction d’âge pour restreindre l’accès aux contenus sensibles aux utilisateurs de moins de 18 ans
- Les travaux de correction du problème de sur‑refus (over‑refusal) dans ChatGPT sont en cours
Tarifs et distribution
- Déploiement progressif à partir des plans payants de ChatGPT (Plus, Pro, Business, Enterprise)
- Dans l’API, disponible sous
gpt‑5.2,gpt‑5.2‑chat‑latest,gpt‑5.2‑pro - Tarifs : $1,75 pour 1 million de jetons en entrée, $14 pour 1 million de jetons en sortie, et réduction de 90 % sur les entrées en cache
- Bien que plus cher que GPT‑5.1, la hausse de l’efficacité par jeton permet une réduction du coût total
- GPT‑5.1 sera maintenu pendant 3 mois puis supprimé progressivement
- Une version Codex optimisée sera publiée ultérieurement
Partenariats techniques
- Développement de GPT‑5.2 en partenariat avec NVIDIA et Microsoft
- Utilisation des centres de données Azure et d’infrastructures GPU H100, H200, GB200‑NVL72
- Pour soutenir l’efficacité de l’entraînement à grande échelle et améliorer l’intelligence du modèle
Principaux benchmarks
- GDPval : 70,9 % (GPT‑5.1 38,8 %)
- SWE‑Bench Verified : 80,0 %
- OpenAI MRCRv2 (256k) : 77,0 %
- CharXiv Reasoning (avec Python) : 88,7 %
- Tau2‑bench Telecom : 98,7 %
- ARC‑AGI‑1 (Verified) : 86,2 %
- AIME 2025 : 100 %
- FrontierMath Tier 1–3 : 40,3 %
GPT‑5.2 surpasse largement la génération précédente en intelligence, fiabilité et productivité et se positionne comme une IA d’assistance opérationnelle de niveau professionnel.
1 commentaires
Avis sur Hacker News
Ces derniers mois, j’ai utilisé ChatGPT en payant pour presque tout : coder, suivre l’actualité, analyser des actions, résoudre des problèmes du quotidien.
Mais après avoir testé Gemini 3 à sa sortie, j’ai trouvé qu’il donnait de bien meilleurs résultats dans tous les cas d’usage.
Il s’est surtout montré fort pour la recherche d’informations récentes quand l’intégration de la recherche web est nécessaire. Son OCR est aussi excellent : il reconnaît même ma mauvaise écriture.
En revanche, l’app a beaucoup de bugs, les sessions se coupent souvent et il y a aussi des erreurs lors de l’upload de photos.
Ce qui m’agace le plus, c’est que tous les liens passent par une recherche Google, donc il faut les modifier pour aller directement sur le site.
Globalement, j’en conclus que ChatGPT est à la traîne sur l’intégration à la recherche, et que ça risque d’être difficile à rattraper
On en est au point où une simple interruption peut faire perdre les données : ça donne l’impression d’un produit Google inachevé typique.
L’idée du mode vocal est bonne, mais il casse souvent et répète des questions tout seul
ChatGPT ouvre les PDF ou les captures d’écran et les utilise comme entrée OCR, alors que Gemini les ignore
Mais aujourd’hui les navigateurs le gèrent eux‑mêmes, donc il n’y a pas vraiment besoin d’envoyer les informations de clic à Google.
Les remplacer par des liens directs ne pose pas de problème
Opus 4.5 est meilleur en qualité, mais les limites d’usage sont sévères, donc je réfléchis à cumuler plusieurs abonnements
Comme j’utilise plus la voix que l’OCR, c’est rédhibitoire pour moi.
Et je ne comprends pas non plus l’affirmation selon laquelle « l’intégration de la recherche est son point fort ». J’aimerais bien voir un exemple concret où ChatGPT était réellement moins bon pour chercher des informations récentes
Ce n’est pas indiqué dans l’annonce du blog, mais la taille réelle de la fenêtre de contexte est de 400 000 tokens.
C’est précisé dans la documentation officielle.
Comme ils disent aussi que l’exploitation de l’ensemble du contexte a été améliorée, c’est prometteur.
J’utilisais Codex 5.1 sur des projets Rust/CUDA avant de passer à Gemini 3 : au début j’étais impressionné parce qu’il trouvait bien les bugs, mais j’ai vite failli devenir fou à cause de l’ignorance des consignes, des sorties corrompues et d’un raisonnement opaque.
En revenant sur Codex, j’ai retrouvé de la stabilité et une bonne prise en compte du feedback. Et maintenant il y a même un mode GPT‑5.2 xhigh, donc j’ai presque l’impression de recevoir un cadeau de Noël
L’époque où les forums discutaient franchement des problèmes et de leurs solutions me manque
J’ai vu beaucoup de développeurs utiliser, dans une seule session, tous les sujets à la fois : cuisine, cadeaux, code, etc., puis s’étonner d’obtenir des réponses bizarres.
Comme les LLM renvoient en permanence tout le contexte de la conversation, il faut démarrer un nouveau chat par sujet.
Sinon, on se retrouve avec des réponses du genre « ce que ma femme pense des variables globales »
Des apps comme Cursor ou ChatGPT doivent sans doute être difficiles à saisir
Si on ne connaît pas le concept de fenêtre de contexte, on peut facilement avoir l’impression que l’IA est stupide. J’ai l’impression que c’est pour ça que beaucoup de gens sous‑estiment l’IA
Et comme on ne sait pas si le modèle est en A/B test, ni s’il limite les reasoning tokens, il est difficile de lui faire confiance
Pour une séparation complète, il faut désactiver cette option
Sur l’image de la carte mère, l’emplacement de la RAM, des slots PCIe et du DisplayPort est entièrement faux.
Lien vers l’image
Je me demande pourquoi ils ont utilisé ça comme image promotionnelle
Sur le benchmark Extended NYT Connections, la version à fort raisonnement de GPT‑5.2 passe de 69,9 à 77,9.
Lien vers le benchmark
Les versions à raisonnement moyen et faible progressent elles aussi, mais Gemini 3 Pro et Grok 4.1 Fast Reasoning restent devant
Le test du « pélican à vélo » est intéressant
Exemple d’image
La progression du score ARC‑AGI‑2 est impressionnante. On dirait que la capacité de généralisation s’est beaucoup améliorée.
Les modèles précédents donnaient une impression de surapprentissage, alors que maintenant l’auto‑correction (self‑correction) fonctionne bien.
Si ce niveau d’amélioration est possible sans nouveau datacenter ni changement d’échelle massif du modèle, la suite est très prometteuse
J’ai le sentiment que l’expérience utilisateur compte désormais plus que les benchmarks.
Si je continue à payer ChatGPT, c’est grâce à l’organisation des conversations par projet.
Mais toutes les plateformes ont en commun le fait de
Elles doivent résoudre ces problèmes fondamentaux d’utilisabilité
Du coup, les benchmarks deviennent une sorte de jeu du chat et de la souris
J’ai l’impression que les posts critiques sont censurés sur r/Codex, donc je vais parler franchement ici.
C’est plus rapide, mais toujours plus lent qu’Opus 4.5, et par rapport à 5.1, l’amélioration ressentie est presque nulle.
Le coût des tokens a augmenté de 40 %, sans que ça me semble justifié.
Gemini 3 est gratuit pour un niveau proche de ChatGPT Pro, et Claude Code à 100 $/mois est aussi très solide.
On dirait qu’OpenAI traverse une crise existentielle
Le fait que le « knowledge cutoff soit en août 2025 » et la hausse des prix donnent l’impression qu’il s’agit d’un nouveau modèle de pré‑entraînement (pretrain).
On disait que GPT‑5.1 utilisait le même pré‑entraînement que GPT‑4o