5 points par GN⁺ 2025-12-12 | 1 commentaires | Partager sur WhatsApp
  • GPT‑5.2 est la série de modèles d’IA la plus puissante pour les tâches de connaissance spécialisée, avec de meilleures capacités de rédaction de code, de reconnaissance d’images et de réalisation de projets complexes
  • Sur l’évaluation GDPval, elle surpasse ou fait jeu égal avec des experts dans 70,9 % de 44 tâches de connaissances métiers, avec une vitesse 11 fois supérieure et un coût inférieur à 1 %
  • SWE‑Bench Pro 55,6 % , GPQA Diamond 92,4 % , ARC‑AGI‑1 86,2 % et autres, avec des performances de pointe sur les principaux benchmarks
  • Compréhension de long contexte (256k jetons) , traitement d’informations visuelles, utilisation d’outils (98,7 %) : améliorations importantes par rapport à GPT‑5.1
  • Déploiement progressif dans ChatGPT et via l’API, avec pour objectif d’accroître la productivité et la fiabilité des professionnels

Aperçu de GPT‑5.2

  • GPT‑5.2 est une série de modèles IA pour les tâches de connaissance professionnelle qui améliore l’élaboration de feuilles de calcul, la création de présentations, la rédaction de code, la reconnaissance d’images, la compréhension de longs textes, l’utilisation d’outils et la réalisation de projets complexes
  • Les utilisateurs de ChatGPT Enterprise économisent déjà en moyenne 40 à 60 minutes par jour, soit plus de 10 heures par semaine, et GPT‑5.2 devrait encore amplifier cette efficacité
  • Dans ChatGPT, il sera proposé en trois variantes : Instant, Thinking et Pro ; dans l’API, il sera disponible immédiatement pour les développeurs

Performances du modèle

  • GPT‑5.2 Thinking atteint pour la première fois des résultats au-delà du niveau expert dans l’évaluation GDPval
    • Sur 44 tâches de connaissance dans des métiers, il surpasse ou fait jeu égal avec des experts dans 70,9 % des cas
    • 11 fois plus rapide que les experts, avec un coût inférieur à 1 %
  • Lors d’une évaluation interne, le score sur une tâche de modélisation de feuilles de calcul pour l’analyse bancaire a progressé de 9,3 % par rapport à GPT‑5.1 (59,1 % → 68,4 %)
  • Les performances en ingénierie logicielle ont progressé avec SWE‑Bench Pro 55,6 % et SWE‑Bench Verified 80 %
    • Plus stable pour le débogage réel de code, l’implémentation de fonctionnalités, le refactoring et les opérations de déploiement
  • Les performances en développement frontend et en travail d’interface utilisateur 3D sont également améliorées par rapport à GPT‑5.1
  • Le taux d’erreur de réponse a baissé de 30 %, réduisant la fréquence des hallucinations

Compréhension de contexte long et reconnaissance visuelle

  • GPT‑5.2 obtient le meilleur résultat sur l’évaluation OpenAI MRCRv2 pour la compréhension intégrée de documents longs
    • Atteinte d’une précision proche de 100 % jusqu’à 256k jetons
    • Bien adapté à l’analyse de rapports, contrats, thèses et autres documents longs
  • Compatible avec l’endpoint /compact, il prend en charge des workflows d’extension de contexte
  • Les performances visuelles sont améliorées, avec une réduction du taux d’erreurs d’environ moitié sur les graphiques, tableaux de bord et captures d’écran d’UI
    • Meilleure compréhension de la disposition spatiale des éléments au sein des images

Utilisation d’outils et tâches complexes

  • Tau2‑bench Telecom 98,7 % en tête pour l’utilisation d’outils
  • Les capacités de gestion de workflows de bout en bout ont été renforcées pour du support client multi-étapes, la collecte de données, l’analyse et la génération de résultats
    • Exemple : traitement complet d’une procédure de service client complexe, comme un retard de vol, une correspondance, puis une demande d’indemnisation

Capacités de science, de maths et de raisonnement

  • GPQA Diamond 92,4 % , FrontierMath Tier 1–3 40,3 % , ARC‑AGI‑1 86,2 % , ARC‑AGI‑2 52,9 % avec des records sur plusieurs benchmarks académiques majeurs
  • GPT‑5.2 Pro dépasse les 90 % sur ARC‑AGI‑1, avec un gain de rentabilité de 390 fois
  • Les versions GPT‑5.2 Pro et Thinking peuvent être utilisées pour accélérer la recherche scientifique
    • Un cas d’usage est présenté avec une proposition de preuve d’un théorème de théorie statistique validée expérimentalement

Expérience d’utilisation dans ChatGPT

  • GPT‑5.2 Instant : réponses rapides avec des explications claires, adapté aux tâches et apprentissages quotidiens
  • GPT‑5.2 Thinking : adapté aux tâches complexes telles que la rédaction de code, le résumé de longs documents, la résolution de problèmes mathématiques et logiques, et la planification
  • GPT‑5.2 Pro : fournit des réponses très fiables sur des questions difficiles, avec moins d’erreurs

Renforcement de la sécurité

  • GPT‑5.2 s’appuie sur la recherche Safe Completion de GPT‑5, avec une amélioration des réponses sur les conversations liées au suicide, à la santé mentale et à la dépendance émotionnelle
    • Diminution du taux de réponses inappropriées par rapport à GPT‑5.1
  • Introduction d’un modèle de prédiction d’âge pour restreindre l’accès aux contenus sensibles aux utilisateurs de moins de 18 ans
  • Les travaux de correction du problème de sur‑refus (over‑refusal) dans ChatGPT sont en cours

Tarifs et distribution

  • Déploiement progressif à partir des plans payants de ChatGPT (Plus, Pro, Business, Enterprise)
  • Dans l’API, disponible sous gpt‑5.2, gpt‑5.2‑chat‑latest, gpt‑5.2‑pro
  • Tarifs : $1,75 pour 1 million de jetons en entrée, $14 pour 1 million de jetons en sortie, et réduction de 90 % sur les entrées en cache
    • Bien que plus cher que GPT‑5.1, la hausse de l’efficacité par jeton permet une réduction du coût total
  • GPT‑5.1 sera maintenu pendant 3 mois puis supprimé progressivement
  • Une version Codex optimisée sera publiée ultérieurement

Partenariats techniques

  • Développement de GPT‑5.2 en partenariat avec NVIDIA et Microsoft
    • Utilisation des centres de données Azure et d’infrastructures GPU H100, H200, GB200‑NVL72
    • Pour soutenir l’efficacité de l’entraînement à grande échelle et améliorer l’intelligence du modèle

Principaux benchmarks

  • GDPval : 70,9 % (GPT‑5.1 38,8 %)
  • SWE‑Bench Verified : 80,0 %
  • OpenAI MRCRv2 (256k) : 77,0 %
  • CharXiv Reasoning (avec Python) : 88,7 %
  • Tau2‑bench Telecom : 98,7 %
  • ARC‑AGI‑1 (Verified) : 86,2 %
  • AIME 2025 : 100 %
  • FrontierMath Tier 1–3 : 40,3 %

GPT‑5.2 surpasse largement la génération précédente en intelligence, fiabilité et productivité et se positionne comme une IA d’assistance opérationnelle de niveau professionnel.

1 commentaires

 
GN⁺ 2025-12-12
Avis sur Hacker News
  • Ces derniers mois, j’ai utilisé ChatGPT en payant pour presque tout : coder, suivre l’actualité, analyser des actions, résoudre des problèmes du quotidien.
    Mais après avoir testé Gemini 3 à sa sortie, j’ai trouvé qu’il donnait de bien meilleurs résultats dans tous les cas d’usage.
    Il s’est surtout montré fort pour la recherche d’informations récentes quand l’intégration de la recherche web est nécessaire. Son OCR est aussi excellent : il reconnaît même ma mauvaise écriture.
    En revanche, l’app a beaucoup de bugs, les sessions se coupent souvent et il y a aussi des erreurs lors de l’upload de photos.
    Ce qui m’agace le plus, c’est que tous les liens passent par une recherche Google, donc il faut les modifier pour aller directement sur le site.
    Globalement, j’en conclus que ChatGPT est à la traîne sur l’intégration à la recherche, et que ça risque d’être difficile à rattraper

    • Dire qu’« il n’y a que des problèmes de policy », c’est vraiment minimiser la chose. Il y a plusieurs fois par jour un bug qui fait disparaître tout le fil qui donne envie de jurer.
      On en est au point où une simple interruption peut faire perdre les données : ça donne l’impression d’un produit Google inachevé typique.
      L’idée du mode vocal est bonne, mais il casse souvent et répète des questions tout seul
    • J’ai eu l’expérience exactement inverse. ChatGPT fait plusieurs recherches, analyse les résultats, puis relance encore des recherches, alors que Gemini ne cherche presque pas.
      ChatGPT ouvre les PDF ou les captures d’écran et les utilise comme entrée OCR, alors que Gemini les ignore
    • Si les liens passent par une recherche Google, c’est parce qu’il y a en interne une vérification anti‑malware et anti‑phishing.
      Mais aujourd’hui les navigateurs le gèrent eux‑mêmes, donc il n’y a pas vraiment besoin d’envoyer les informations de clic à Google.
      Les remplacer par des liens directs ne pose pas de problème
    • Dans mon cas, Gemini 3 Pro avait au contraire plus de hallucinations. Il allait jusqu’à inventer des sources inexistantes
      Opus 4.5 est meilleur en qualité, mais les limites d’usage sont sévères, donc je réfléchis à cumuler plusieurs abonnements
    • La qualité de reconnaissance vocale de Gemini était tellement mauvaise que je n’ai pas pu l’utiliser.
      Comme j’utilise plus la voix que l’OCR, c’est rédhibitoire pour moi.
      Et je ne comprends pas non plus l’affirmation selon laquelle « l’intégration de la recherche est son point fort ». J’aimerais bien voir un exemple concret où ChatGPT était réellement moins bon pour chercher des informations récentes
  • Ce n’est pas indiqué dans l’annonce du blog, mais la taille réelle de la fenêtre de contexte est de 400 000 tokens.
    C’est précisé dans la documentation officielle.
    Comme ils disent aussi que l’exploitation de l’ensemble du contexte a été améliorée, c’est prometteur.
    J’utilisais Codex 5.1 sur des projets Rust/CUDA avant de passer à Gemini 3 : au début j’étais impressionné parce qu’il trouvait bien les bugs, mais j’ai vite failli devenir fou à cause de l’ignorance des consignes, des sorties corrompues et d’un raisonnement opaque.
    En revenant sur Codex, j’ai retrouvé de la stabilité et une bonne prise en compte du feedback. Et maintenant il y a même un mode GPT‑5.2 xhigh, donc j’ai presque l’impression de recevoir un cadeau de Noël

    • Les 400 000 tokens existaient déjà sur GPT‑5, 5.1, 5‑mini, etc. En revanche, si les performances sur les longs contextes se sont améliorées, là oui c’est important
    • De mon côté, le mode xhigh donnait plutôt de moins bons résultats que high, au point que je me suis demandé si c’était du PEBKAC (erreur utilisateur). Je serais curieux de savoir si quelqu’un a comparé
    • Quand je lis les commentaires en ce moment, je n’arrive plus à distinguer les vrais retours des promotions sponsorisées.
      L’époque où les forums discutaient franchement des problèmes et de leurs solutions me manque
  • J’ai vu beaucoup de développeurs utiliser, dans une seule session, tous les sujets à la fois : cuisine, cadeaux, code, etc., puis s’étonner d’obtenir des réponses bizarres.
    Comme les LLM renvoient en permanence tout le contexte de la conversation, il faut démarrer un nouveau chat par sujet.
    Sinon, on se retrouve avec des réponses du genre « ce que ma femme pense des variables globales »

    • Je me fais parfois cette réflexion : à quel point ces outils doivent-ils paraître étranges à quelqu’un qui ne comprend pas le fonctionnement interne des LLM ?
      Des apps comme Cursor ou ChatGPT doivent sans doute être difficiles à saisir
    • Moi aussi, le fait d’avoir suivi les cours fast.ai et manipulé directement plusieurs modèles comme VLLM m’a énormément aidé.
      Si on ne connaît pas le concept de fenêtre de contexte, on peut facilement avoir l’impression que l’IA est stupide. J’ai l’impression que c’est pour ça que beaucoup de gens sous‑estiment l’IA
    • Il n’est pas non plus clair de savoir quel contexte il faut conserver. J’ai essayé d’ajouter des textes de style similaire et ça a au contraire fait baisser les performances.
      Et comme on ne sait pas si le modèle est en A/B test, ni s’il limite les reasoning tokens, il est difficile de lui faire confiance
    • L’option « Reference chat history » de ChatGPT est activée par défaut, donc même si on crée une nouvelle conversation, l’ancien contenu peut s’y mélanger.
      Pour une séparation complète, il faut désactiver cette option
    • J’ai écouté un podcast sur des gens tombés dans une « relation amoureuse » avec un LLM, et ils semblaient ignorer qu’en réinitialisant simplement le contexte, l’entité redevenait totalement étrangère
  • Sur l’image de la carte mère, l’emplacement de la RAM, des slots PCIe et du DisplayPort est entièrement faux.
    Lien vers l’image
    Je me demande pourquoi ils ont utilisé ça comme image promotionnelle

    • L’idée était sans doute de montrer que les performances en vision de GPT‑5.2 se sont améliorées, sans être parfaites. Ne sélectionner que des résultats parfaits pourrait au contraire induire en erreur
    • Les ports USB Type‑A ne sont pas non plus empilés par paires de 2, mais au nombre de 4
    • L’article précise aussi que « les deux modèles font des erreurs, mais GPT‑5.2 a montré une meilleure compréhension »
    • Je pense que ce genre d’erreur vient aussi de la culture actuelle des communautés IA, qui tend à produire en masse des contenus générés sans vérifier les résultats
    • Cela dit, la résolution de l’image est au niveau d’un téléphone à clapet de 2003, donc il y avait de quoi provoquer des erreurs
  • Sur le benchmark Extended NYT Connections, la version à fort raisonnement de GPT‑5.2 passe de 69,9 à 77,9.
    Lien vers le benchmark
    Les versions à raisonnement moyen et faible progressent elles aussi, mais Gemini 3 Pro et Grok 4.1 Fast Reasoning restent devant

    • Le fait que Gemini 3 Pro Preview atteigne 96,8 % sur ce même test est impressionnant
    • Quelqu’un d’autre a testé avec les puzzles Clues by Sam, et GPT‑5 Pro était déjà premier
    • Je me demande pourquoi le résultat de Grok 4.1 reasoning a été omis
  • Le test du « pélican à vélo » est intéressant
    Exemple d’image

    • La variabilité est tellement forte que le test a peu de valeur. Je l’ai lancé 10 fois, et la moitié des résultats étaient parfaits
    • Ils ont sans doute pris en compte les retours disant que la version 5.1 était trop monotone. J’ai eu la même impression avec la version POV‑Ray
    • Le voir devenir de plus en plus aérodynamique donne l’impression que l’IA devient plus intelligente
    • On en arrive à plaisanter en disant que « c’est le seul benchmark auquel je fais confiance »
    • Mais utiliser trop longtemps le même benchmark n’est pas souhaitable non plus
  • La progression du score ARC‑AGI‑2 est impressionnante. On dirait que la capacité de généralisation s’est beaucoup améliorée.
    Les modèles précédents donnaient une impression de surapprentissage, alors que maintenant l’auto‑correction (self‑correction) fonctionne bien.
    Si ce niveau d’amélioration est possible sans nouveau datacenter ni changement d’échelle massif du modèle, la suite est très prometteuse

    • Moi aussi, c’est le résultat ARC‑AGI‑2 qui m’a le plus marqué. C’est un vrai grand bond
  • J’ai le sentiment que l’expérience utilisateur compte désormais plus que les benchmarks.
    Si je continue à payer ChatGPT, c’est grâce à l’organisation des conversations par projet.
    Mais toutes les plateformes ont en commun le fait de

    • mentir avec assurance
    • ne pas vraiment suivre les prompts
    • ne pas exprimer l’incertitude
    • ne jamais s’arrêter avec les compliments inutiles et les réponses interminables
    • citer les sources de manière incohérente
    • ne pas dire clairement si elles ont lu le texte original ou seulement un résumé
      Elles doivent résoudre ces problèmes fondamentaux d’utilisabilité
    • Dès qu’on sort des métriques objectives, il devient difficile de convaincre de la validité de la mesure, mais les indicateurs mesurables sont faciles à manipuler
      Du coup, les benchmarks deviennent une sorte de jeu du chat et de la souris
  • J’ai l’impression que les posts critiques sont censurés sur r/Codex, donc je vais parler franchement ici.
    C’est plus rapide, mais toujours plus lent qu’Opus 4.5, et par rapport à 5.1, l’amélioration ressentie est presque nulle.
    Le coût des tokens a augmenté de 40 %, sans que ça me semble justifié.
    Gemini 3 est gratuit pour un niveau proche de ChatGPT Pro, et Claude Code à 100 $/mois est aussi très solide.
    On dirait qu’OpenAI traverse une crise existentielle

    • Le passage de Gemini 2.5 à 3 n’avait pas non plus apporté de grosse amélioration. Globalement, on a l’impression que le progrès concret stagne
  • Le fait que le « knowledge cutoff soit en août 2025 » et la hausse des prix donnent l’impression qu’il s’agit d’un nouveau modèle de pré‑entraînement (pretrain).
    On disait que GPT‑5.1 utilisait le même pré‑entraînement que GPT‑4o

    • Un nouveau pré‑entraînement coûte énormément, donc il est peu probable que cela se limite à une hausse de version de 0,1
    • Ou alors 5.1 était un checkpoint plus ancien, ou davantage quantifié (quantization)
    • Ou bien ils ont simplement redonné au même modèle une dose supplémentaire de données médiocres (slop)