- Une discussion est en cours sur la communauté Reddit r/codex pour comparer les performances de codage des deux modèles, et la majorité des utilisateurs soutient actuellement la supériorité de GPT 5.5
- GPT 5.5 se distingue par sa stabilité et sa précision, tandis qu’Opus 4.7 suscite de fortes critiques à cause d’une baisse récente de performances et de limitations d’usage
- Certains estiment toutefois qu’Opus 4.7 conserve un léger avantage sur la partie front-end / design UI
- Plusieurs utilisateurs pointent un manque de ressources de calcul côté Claude (Opus), qui aurait entraîné une réduction de performances (« lobotomize »), et soulèvent des questions de fiabilité
- Comme les performances des modèles d’IA continuent de progresser, certains avancent que, sur le long terme, l’accessibilité, le prix, les limites d’usage et les politiques de censure pourraient devenir des critères de choix plus importants que la supériorité actuelle
Comparaison globale des performances en code
- La plupart des commentaires s’accordent à dire que GPT 5.5 domine globalement en code / programmation
- GPT 5.5 est rapide, compétent et montre une meilleure attention aux détails qu’Opus 4.7
- GPT 5.5 est efficace pour corriger des bugs et détecter des dépendances manquantes
- Certains jugent qu’Opus 4.7 a un niveau proche en capacité de codage pure, mais qu’il présente une tendance « lazy » et ne réalise parfois que le strict minimum
- GPT 5.5 a tendance à évaluer la portée d’impact du code et à identifier les points à prendre en compte avant d’agir, alors qu’Opus 4.7 cherche plutôt à produire rapidement une solution intermédiaire
UI / design front-end
- Sur les tâches de design et de front-end, Opus 4.7 produit des résultats légèrement meilleurs
- Cela dit, il existe aussi un cas où GPT 5.5 a réalisé presque parfaitement en one-shot le design d’un site web de groupe à partir du seul logo
- Les résultats de Codex sur les tâches UI/UX varient selon la qualité du prompting et la présence ou non d’indices visuels
- Une stratégie recommandée consiste à utiliser GPT 5.5 pour construire la base et la structure, puis Opus 4.7 pour peaufiner le design front-end
- Certains proposent aussi d’utiliser des outils gratuits comme Meta Muse Spark pour compléter la partie UI
Problèmes de stabilité et de limitation d’usage d’Opus 4.7
- L’idée qu’Opus 4.7 a vu ses performances réduites faute de ressources de calcul suffisantes, en raison d’un afflux de nouveaux utilisateurs, est largement répandue
- De nombreuses plaintes affirment que 4.7 (et 4.6) a été « nerfed » à plusieurs reprises
- Des signalements font état de nombreuses hallucinations en mode max effort sur Opus 4.7
- Un cas rapporte qu’un unique prompt resté inachevé pendant une session de 18 minutes a consommé l’équivalent de 5 heures de quota d’utilisation
- Beaucoup estiment que les limites d’utilisation d’Opus dans l’abonnement Claude Pro à 20 $ sont très strictes
Avantages et inconvénients de GPT 5.5
- GPT 5.5 est stable et conserve une qualité constante sans régression de performance
- Selon certains utilisateurs, il n’a pas encore été observé en train de générer de fausses informations
- En revanche, il peut aussi avoir une tendance « lazy » à n’exécuter que le minimum explicitement demandé dans le prompt, ce qui impose parfois un prompting détaillé ou une phase préalable de planification et de Q&A
- Il a tendance à consommer davantage de tokens
- Par rapport à GPT 5.4 (abonnement à 20 $), la version 5.5 consomme deux fois plus de quota d’utilisation pour un gain de benchmark de seulement 2 à 5 %, ce qui soulève des doutes sur son rapport qualité-prix
Comparaison des prix et abonnements
- Pour un usage individuel, certains estiment que l’abonnement ChatGPT Pro à 100 $ offre un excellent rapport qualité-prix
- Une stratégie recommandée consiste à combiner Codex avec Kimi à 10 $ ou Gemini à 22 $ pour renforcer le travail UI
- Si l’on utilise déjà le stockage Google, Gemini revient en pratique à environ 10 à 15 $
- Certains utilisateurs ayant un compte Claude Max envisagent aussi de basculer complètement vers GPT Plus
Perspective à long terme
- Dans les prochains mois, tous les modèles, y compris les modèles chinois, pourraient atteindre au moins le niveau d’Opus 4.6, probablement à un prix plus bas
- Plus que la performance brute du modèle, l’accessibilité, le prix, les limites d’usage, la censure et la capacité de compréhension du contexte devraient devenir les principaux facteurs de différenciation
- GPT 5.5 domine aujourd’hui, mais certains craignent que, comme Claude après son âge d’or, Codex puisse lui aussi voir ses performances être réduites prochainement
- Il existe aussi un intérêt pour des comparaisons avec d’autres modèles comme Kimi 2.6, GLM et MiniMax
16 commentaires
Ils pensent qu’on ne remarquera pas une baisse de performances glissée via un patch discret, mais en réalité l’intuition humaine est plus affûtée qu’on ne le croit, donc si je combine mon ressenti avec ce que racontent les gens de la communauté, on a tout de suite la réponse.
« Alors, toi, qu’est-ce que tu sais faire au juste ? mdr » — du coup, on n’a pas vraiment le choix, on l’utilise quand même….
Depuis la version 3.5, j’ai toujours utilisé Claude comme modèle principal, mais à partir de la 5.5, j’ai commencé à utiliser GPT comme modèle principal. Franchement, c’est vraiment pas mal.
Et si on utilisait Claude uniquement pour la planification et Codex uniquement pour l'exécution ?
C’est ce que je fais en ce moment. En revanche, la politique de sandbox de Codex CLI est beaucoup trop stricte, donc dès que j’essaie de lui confier aussi le build et les tests, ça devient vraiment peu pratique.
Les deux s’expriment vraiment n’importe comment, et ça me tape sur les nerfs. Cela dit, ils sont tous les deux paresseux, ils oublient même une partie de ce qu’on leur demande de faire.
C’est exactement ce que j’ai ressenti aussi, donc j’ai pris l’abonnement GPT à 100 $ et je l’utilise.
Je réfléchis à faire passer Claude de 200 $ à 100 $.
codex 5.4 parlait bizarrement en coréen, mais ses performances étaient déjà supérieures à celles d’opus 4.6 et opus 4.7 (son ton étrange constituait une barrière à l’entrée / du genre « j’ai ouvert », « j’ai fermé », « je vais pousser », etc.)
avec codex 5.5, le ton est redevenu normal, et il est devenu bien plus méticuleux et intelligent. opus 4.7 = on sent vraiment qu’il est paresseux et qu’il cherche à économiser le coût de raisonnement, et j’ai même l’impression qu’il a régressé par rapport à opus 4.6
À l’époque du modèle 5.3 dédié à codex, on avait vraiment l’impression de parler à un employé subalterne qui n’avait aucun sens de la conversation mais qui codait très bien.
À partir de la 5.4, il a commencé à parler un peu, et depuis la 5.5, on dirait qu’il a retrouvé à moitié ses esprits.
Il continue quand même à appeler une API un contrat, ou à mélanger parfois l’anglais et le coréen de façon complètement folle, au point qu’il faut lui écrire : « Explique-le de façon simple, en évitant au maximum l’anglais. »
Malgré ça, en termes de génération de code, j’ai l’impression qu’il a dépassé opus à partir de la 5.4. Opus 4.7 est sorti, mais je ne l’ai même pas essayé vite fait. Ça ressemble encore trop à du marketing à la "Anthropic", c’est évident.
Au contraire, j’ai l’impression qu’avec Opus 4.6 et 4.7, le coréen commence à devenir bizarre lol
Pour ceux qui ont déjà mis en place un harness avec Claude, Claude est préférable. Mais si vous débutez, GPT est meilleur. En termes de rapport qualité-prix, GPT écrase tout. Même l’offre à 20 dollars suffit largement.
Je pense que pour ceux qui développaient déjà, GPT 5.5 est meilleur.
Pour les non-développeurs, Claude est meilleur, à mon avis.
Mais il n’y a pas besoin d’en débattre autant.
Le mieux, c’est surtout de créer quelque chose d’utile..
Dans l’ensemble, on a l’impression que GPT 5.5 est supérieur. Je n’ai utilisé que Claude Code (Opus 4.7) jusqu’ici… Il va vraiment falloir que j’essaie aussi Codex sérieusement.
En réalité, dès GPT-5, il était déjà supérieur sur la feuille de route, sauf pour le design front-end.
C’est juste que la communauté est un peu très lente..
Je suis d’accord.
Jusqu’ici, il y avait un décalage entre mon ressenti réel et les réactions de la communauté, ce qui me donnait une impression d’incohérence.
C’est vrai.
Il y a un an, je recommandais vivement Claude, mais en ce moment, je recommande vivement l’app Codex.