Présentation de GPT‑5.2
(openai.com)- GPT‑5.2 est la série de modèles d’IA la plus puissante pour les tâches de connaissance spécialisée, avec de meilleures capacités de rédaction de code, de reconnaissance d’images et de réalisation de projets complexes
- Sur l’évaluation GDPval, elle surpasse ou fait jeu égal avec des experts dans 70,9 % de 44 tâches de connaissances métiers, avec une vitesse 11 fois supérieure et un coût inférieur à 1 %
- SWE‑Bench Pro 55,6 % , GPQA Diamond 92,4 % , ARC‑AGI‑1 86,2 % et autres, avec des performances de pointe sur les principaux benchmarks
- Compréhension de long contexte (256k jetons) , traitement d’informations visuelles, utilisation d’outils (98,7 %) : améliorations importantes par rapport à GPT‑5.1
- Déploiement progressif dans ChatGPT et via l’API, avec pour objectif d’accroître la productivité et la fiabilité des professionnels
Aperçu de GPT‑5.2
- GPT‑5.2 est une série de modèles IA pour les tâches de connaissance professionnelle qui améliore l’élaboration de feuilles de calcul, la création de présentations, la rédaction de code, la reconnaissance d’images, la compréhension de longs textes, l’utilisation d’outils et la réalisation de projets complexes
- Les utilisateurs de ChatGPT Enterprise économisent déjà en moyenne 40 à 60 minutes par jour, soit plus de 10 heures par semaine, et GPT‑5.2 devrait encore amplifier cette efficacité
- Dans ChatGPT, il sera proposé en trois variantes : Instant, Thinking et Pro ; dans l’API, il sera disponible immédiatement pour les développeurs
Performances du modèle
- GPT‑5.2 Thinking atteint pour la première fois des résultats au-delà du niveau expert dans l’évaluation GDPval
- Sur 44 tâches de connaissance dans des métiers, il surpasse ou fait jeu égal avec des experts dans 70,9 % des cas
- 11 fois plus rapide que les experts, avec un coût inférieur à 1 %
- Lors d’une évaluation interne, le score sur une tâche de modélisation de feuilles de calcul pour l’analyse bancaire a progressé de 9,3 % par rapport à GPT‑5.1 (59,1 % → 68,4 %)
- Les performances en ingénierie logicielle ont progressé avec SWE‑Bench Pro 55,6 % et SWE‑Bench Verified 80 %
- Plus stable pour le débogage réel de code, l’implémentation de fonctionnalités, le refactoring et les opérations de déploiement
- Les performances en développement frontend et en travail d’interface utilisateur 3D sont également améliorées par rapport à GPT‑5.1
- Le taux d’erreur de réponse a baissé de 30 %, réduisant la fréquence des hallucinations
Compréhension de contexte long et reconnaissance visuelle
- GPT‑5.2 obtient le meilleur résultat sur l’évaluation OpenAI MRCRv2 pour la compréhension intégrée de documents longs
- Atteinte d’une précision proche de 100 % jusqu’à 256k jetons
- Bien adapté à l’analyse de rapports, contrats, thèses et autres documents longs
- Compatible avec l’endpoint
/compact, il prend en charge des workflows d’extension de contexte - Les performances visuelles sont améliorées, avec une réduction du taux d’erreurs d’environ moitié sur les graphiques, tableaux de bord et captures d’écran d’UI
- Meilleure compréhension de la disposition spatiale des éléments au sein des images
Utilisation d’outils et tâches complexes
- Tau2‑bench Telecom 98,7 % en tête pour l’utilisation d’outils
- Les capacités de gestion de workflows de bout en bout ont été renforcées pour du support client multi-étapes, la collecte de données, l’analyse et la génération de résultats
- Exemple : traitement complet d’une procédure de service client complexe, comme un retard de vol, une correspondance, puis une demande d’indemnisation
Capacités de science, de maths et de raisonnement
- GPQA Diamond 92,4 % , FrontierMath Tier 1–3 40,3 % , ARC‑AGI‑1 86,2 % , ARC‑AGI‑2 52,9 % avec des records sur plusieurs benchmarks académiques majeurs
- GPT‑5.2 Pro dépasse les 90 % sur ARC‑AGI‑1, avec un gain de rentabilité de 390 fois
- Les versions GPT‑5.2 Pro et Thinking peuvent être utilisées pour accélérer la recherche scientifique
- Un cas d’usage est présenté avec une proposition de preuve d’un théorème de théorie statistique validée expérimentalement
Expérience d’utilisation dans ChatGPT
- GPT‑5.2 Instant : réponses rapides avec des explications claires, adapté aux tâches et apprentissages quotidiens
- GPT‑5.2 Thinking : adapté aux tâches complexes telles que la rédaction de code, le résumé de longs documents, la résolution de problèmes mathématiques et logiques, et la planification
- GPT‑5.2 Pro : fournit des réponses très fiables sur des questions difficiles, avec moins d’erreurs
Renforcement de la sécurité
- GPT‑5.2 s’appuie sur la recherche Safe Completion de GPT‑5, avec une amélioration des réponses sur les conversations liées au suicide, à la santé mentale et à la dépendance émotionnelle
- Diminution du taux de réponses inappropriées par rapport à GPT‑5.1
- Introduction d’un modèle de prédiction d’âge pour restreindre l’accès aux contenus sensibles aux utilisateurs de moins de 18 ans
- Les travaux de correction du problème de sur‑refus (over‑refusal) dans ChatGPT sont en cours
Tarifs et distribution
- Déploiement progressif à partir des plans payants de ChatGPT (Plus, Pro, Business, Enterprise)
- Dans l’API, disponible sous
gpt‑5.2,gpt‑5.2‑chat‑latest,gpt‑5.2‑pro - Tarifs : $1,75 pour 1 million de jetons en entrée, $14 pour 1 million de jetons en sortie, et réduction de 90 % sur les entrées en cache
- Bien que plus cher que GPT‑5.1, la hausse de l’efficacité par jeton permet une réduction du coût total
- GPT‑5.1 sera maintenu pendant 3 mois puis supprimé progressivement
- Une version Codex optimisée sera publiée ultérieurement
Partenariats techniques
- Développement de GPT‑5.2 en partenariat avec NVIDIA et Microsoft
- Utilisation des centres de données Azure et d’infrastructures GPU H100, H200, GB200‑NVL72
- Pour soutenir l’efficacité de l’entraînement à grande échelle et améliorer l’intelligence du modèle
Principaux benchmarks
- GDPval : 70,9 % (GPT‑5.1 38,8 %)
- SWE‑Bench Verified : 80,0 %
- OpenAI MRCRv2 (256k) : 77,0 %
- CharXiv Reasoning (avec Python) : 88,7 %
- Tau2‑bench Telecom : 98,7 %
- ARC‑AGI‑1 (Verified) : 86,2 %
- AIME 2025 : 100 %
- FrontierMath Tier 1–3 : 40,3 %
GPT‑5.2 surpasse largement la génération précédente en intelligence, fiabilité et productivité et se positionne comme une IA d’assistance opérationnelle de niveau professionnel.
Aucun commentaire pour le moment.