Après des mois de lutte avec Claude, Codex donne l’impression d’être le rêve d’un vibe coder
(reddit.com)- J’ai codé pendant 3 mois avec Claude/Anthropic, mais sa fiabilité a baissé sur des tâches à l’échelle d’un repo, au point de nécessiter un workflow de supervision séparé
- À l’époque de 4.7, il hallucinait en affirmant qu’une fonctionnalité était terminée alors que l’implémentation réelle ne couvrait qu’environ 40 %, et affichait une confiance excessive autour des stub/placeholders
- Malgré le coût de Max x20, ce sont surtout la consommation de tokens et la charge de supervision qui ont augmenté, plus que la productivité, et je suis passé à GPT-5.5 + Codex le 12 mai
- Codex comprend mieux le code adjacent sans prompts excessifs, détecte mieux les régressions, et rend gérables les boucles lint/test ainsi que les gros refactorings
- La migration s’est essentiellement résumée au passage de CLAUDE.md→AGENTS.md avec conservation des hooks, et je n’ai pas l’intention de revenir en arrière dans ce workflow
Ce qui a changé dans mon flux de développement après être passé de Claude à Codex
- Ces 3 derniers mois, j’ai surtout codé avec Claude/Anthropic et, au moment de la sortie d’Opus 4.6, sa compréhension de l’architecture, sa gestion de grands contextes et sa rapidité d’implémentation m’avaient séduit
- Avec le temps, sa fiabilité a diminué sur les tâches à l’échelle d’un repo, au point de nécessiter un workflow séparé pour surveiller le modèle
- plusieurs agents pour vérifier les régressions dans les fichiers adjacents
- un agent de type “senior reviewer” sur les commits importants
- une vérification continue pour détecter la dérive d’implémentation et les implémentations incomplètes
- un pipeline lint/test pour attraper les tâches que le modèle déclarait avec assurance comme terminées
- À l’époque de 4.7, les problèmes se sont aggravés dans mon workflow personnel
- il hallucinait en déclarant une fonctionnalité terminée alors que l’implémentation réelle n’était qu’à environ 40 %
- il affichait une confiance infondée autour des stub/placeholders
- il adoptait des comportements d’évitement, comme affirmer qu’une « session séparée était nécessaire » ou estimer des délais excessifs pour des changements pourtant réalistes
- Je payais Max x20, mais j’ai surtout ressenti une hausse de la consommation de tokens et de la charge de supervision, davantage qu’un gain de productivité
- J’ai finalement basculé vers GPT-5.5 + Codex le 12 mai, et le codage avec l’IA est redevenu en quelques mois quelque chose de plus proche du confort que du stress
Les avantages constatés avec GPT-5.5 + Codex
- Codex comprend bien le code adjacent sans avoir besoin de prompts excessifs, et détecte mieux les régressions
- La boucle de feedback lint/test fonctionne de façon plus serrée, et les gros refactorings deviennent réellement gérables
- Les décisions d’infrastructure et les changements d’architecture s’enchaînent dans une direction cohérente plutôt qu’en fragments, et le modèle semble davantage terminer réellement le travail que faire semblant
- J’évite la plupart du temps
/fast, car il semble épuiser rapidement le quota hebdomadaire, mais même en high/xhigh, le gain de productivité a été important - Mettre le zip complet du dépôt dans GPT-5.5 Pro extended thinking aide à résoudre des problèmes sur lesquels d’autres modèles échouaient à répétition
- La migration elle-même s’est faite sans gros frottements
- Cela ne veut pas dire que tout le monde doit migrer immédiatement, mais pour ce workflow, je n’ai pas l’intention de revenir en arrière avant un moment
1 commentaires
Avis sur Hacker News
Il ne s’agit pas de soutenir un seul outil d’IA comme on choisit son équipe de sport préférée. Il faut maîtriser les deux, voire tous si possible, et utiliser celui qui convient le mieux cette semaine
Le mois prochain, cela peut changer. J’ai deux abonnements, mais je sais aussi que tout le monde ne peut pas faire pareil
Tous ces outils sont corrects, certaines personnes obtiennent de meilleurs résultats avec l’un ou l’autre, et comme tu l’as dit, la semaine prochaine cela peut être complètement différent
Cela dit, comme j’utilise aussi Gemini grâce à un coupon Kinguin premium 18 mois à 15 €, je lui transfère certaines tâches quand j’atteins mes quotas
Opus 4.7 donne l’impression d’être orienté vers le fait d’avoir l’air utile et productif, et vers la performance de façade
Codex, lui, fait réellement le travail
J’aimerais bien que tu partages un peu plus ton workflow. Je voudrais apprendre ce que tu fais exactement et essayer de le reproduire
Je me demande aussi pourquoi tu mets tout le dépôt dans GPT, et quelles technologies et quels livres tu utilises
De mon côté, j’entre un prompt, j’attends que Codex termine, puis je lui redemande s’il a bien fait les tâches périphériques évidentes que je faisais moi-même avant. Là, il les traite enfin, puis je passe du temps sur
/reviewet sur les tests manuels, avant de revenir à des unités de travail plus petites. Pour les grosses fonctionnalités, j’utilise un plan, j’utilise aussi l’extension VSCode, et j’ai essayé 5.4 comme 5.5, mais le premier semble mieux me convenirComment peut-on utiliser ici des modèles autres que ceux d’OpenAI ?
Le problème de Claude, c’est qu’il ne continue pas à s’exécuter comme Codex. Claude est peut-être meilleur, mais Codex essaie d’aller jusqu’au bout de la tâche
Claude s’arrête tout simplement, et même s’il en avait la capacité, ce serait sans doute trop cher pour que cela change grand-chose. C’est peut-être similaire ou même meilleur, mais maintenant je ne sais plus trop et je ne l’utilise plus. La 4.5 était la meilleure à sa sortie
J’ai eu la même impression que Codex était magique, mais il suffit d’attendre qu’il casse. Jusqu’à il y a trois jours, j’avais le même ressenti, mais honnêtement j’ai maintenant l’impression qu’il est devenu pire que Claude
Je l’utilise 24 h/24 avec 5 comptes Pro, donc je peux l’affirmer : ce n’est plus du tout comme il y a une semaine, et là il s’est vraiment beaucoup dégradé