Après des mois de lutte avec Claude, Codex donne l’impression d’être le rêve d’un vibe coder

(reddit.com)

1 points par GN⁺ 1 시간 전 | 1 commentaires | Partager sur WhatsApp

J’ai codé pendant 3 mois avec Claude/Anthropic, mais sa fiabilité a baissé sur des tâches à l’échelle d’un repo, au point de nécessiter un workflow de supervision séparé
À l’époque de 4.7, il hallucinait en affirmant qu’une fonctionnalité était terminée alors que l’implémentation réelle ne couvrait qu’environ 40 %, et affichait une confiance excessive autour des stub/placeholders
Malgré le coût de Max x20, ce sont surtout la consommation de tokens et la charge de supervision qui ont augmenté, plus que la productivité, et je suis passé à GPT-5.5 + Codex le 12 mai
Codex comprend mieux le code adjacent sans prompts excessifs, détecte mieux les régressions, et rend gérables les boucles lint/test ainsi que les gros refactorings
La migration s’est essentiellement résumée au passage de CLAUDE.md→AGENTS.md avec conservation des hooks, et je n’ai pas l’intention de revenir en arrière dans ce workflow

Ce qui a changé dans mon flux de développement après être passé de Claude à Codex

Ces 3 derniers mois, j’ai surtout codé avec Claude/Anthropic et, au moment de la sortie d’Opus 4.6, sa compréhension de l’architecture, sa gestion de grands contextes et sa rapidité d’implémentation m’avaient séduit
Avec le temps, sa fiabilité a diminué sur les tâches à l’échelle d’un repo, au point de nécessiter un workflow séparé pour surveiller le modèle
- plusieurs agents pour vérifier les régressions dans les fichiers adjacents
- un agent de type “senior reviewer” sur les commits importants
- une vérification continue pour détecter la dérive d’implémentation et les implémentations incomplètes
- un pipeline lint/test pour attraper les tâches que le modèle déclarait avec assurance comme terminées
À l’époque de 4.7, les problèmes se sont aggravés dans mon workflow personnel
- il hallucinait en déclarant une fonctionnalité terminée alors que l’implémentation réelle n’était qu’à environ 40 %
- il affichait une confiance infondée autour des stub/placeholders
- il adoptait des comportements d’évitement, comme affirmer qu’une « session séparée était nécessaire » ou estimer des délais excessifs pour des changements pourtant réalistes
Je payais Max x20, mais j’ai surtout ressenti une hausse de la consommation de tokens et de la charge de supervision, davantage qu’un gain de productivité
J’ai finalement basculé vers GPT-5.5 + Codex le 12 mai, et le codage avec l’IA est redevenu en quelques mois quelque chose de plus proche du confort que du stress

Les avantages constatés avec GPT-5.5 + Codex

Codex comprend bien le code adjacent sans avoir besoin de prompts excessifs, et détecte mieux les régressions
La boucle de feedback lint/test fonctionne de façon plus serrée, et les gros refactorings deviennent réellement gérables
Les décisions d’infrastructure et les changements d’architecture s’enchaînent dans une direction cohérente plutôt qu’en fragments, et le modèle semble davantage terminer réellement le travail que faire semblant
J’évite la plupart du temps /fast, car il semble épuiser rapidement le quota hebdomadaire, mais même en high/xhigh, le gain de productivité a été important
Mettre le zip complet du dépôt dans GPT-5.5 Pro extended thinking aide à résoudre des problèmes sur lesquels d’autres modèles échouaient à répétition
La migration elle-même s’est faite sans gros frottements
- CLAUDE.md est devenu AGENTS.md
- les hooks ont été conservés tels quels
- le workflow global a à peine eu besoin d’être modifié
Cela ne veut pas dire que tout le monde doit migrer immédiatement, mais pour ce workflow, je n’ai pas l’intention de revenir en arrière avant un moment

1 commentaires

GN⁺ 1 시간 전

Avis sur Hacker News

Il ne s’agit pas de soutenir un seul outil d’IA comme on choisit son équipe de sport préférée. Il faut maîtriser les deux, voire tous si possible, et utiliser celui qui convient le mieux cette semaine
Le mois prochain, cela peut changer. J’ai deux abonnements, mais je sais aussi que tout le monde ne peut pas faire pareil
- C’est vraiment l’ambiance du moment, mais je pense que cela vient surtout de cette tendance humaine à avoir l’impression qu’une autre personne qui fait un choix différent est en train de dire que j’ai tort
  Tous ces outils sont corrects, certaines personnes obtiennent de meilleurs résultats avec l’un ou l’autre, et comme tu l’as dit, la semaine prochaine cela peut être complètement différent
- Moi aussi, peu importe lequel me convient le mieux à l’instant T, et je continue à tester, à expérimenter sans arrêt
- Exactement. Les modèles changent en permanence. Aujourd’hui c’est Anthropic, demain OpenAI, puis à nouveau Anthropic, la semaine prochaine un nouveau challenger chinois, et le mois d’après Google peut se ressaisir. Et ça continue sans fin
- J’ai bricolé avec Codex et Gemini pendant environ une semaine, et jusqu’ici c’est Codex qui me convient le mieux
  Cela dit, comme j’utilise aussi Gemini grâce à un coupon Kinguin premium 18 mois à 15 €, je lui transfère certaines tâches quand j’atteins mes quotas
Opus 4.7 donne l’impression d’être orienté vers le fait d’avoir l’air utile et productif, et vers la performance de façade
Codex, lui, fait réellement le travail
J’aimerais bien que tu partages un peu plus ton workflow. Je voudrais apprendre ce que tu fais exactement et essayer de le reproduire
Je me demande aussi pourquoi tu mets tout le dépôt dans GPT, et quelles technologies et quels livres tu utilises
De mon côté, j’entre un prompt, j’attends que Codex termine, puis je lui redemande s’il a bien fait les tâches périphériques évidentes que je faisais moi-même avant. Là, il les traite enfin, puis je passe du temps sur /review et sur les tests manuels, avant de revenir à des unités de travail plus petites. Pour les grosses fonctionnalités, j’utilise un plan, j’utilise aussi l’extension VSCode, et j’ai essayé 5.4 comme 5.5, mais le premier semble mieux me convenir
Comment peut-on utiliser ici des modèles autres que ceux d’OpenAI ?
Le problème de Claude, c’est qu’il ne continue pas à s’exécuter comme Codex. Claude est peut-être meilleur, mais Codex essaie d’aller jusqu’au bout de la tâche
Claude s’arrête tout simplement, et même s’il en avait la capacité, ce serait sans doute trop cher pour que cela change grand-chose. C’est peut-être similaire ou même meilleur, mais maintenant je ne sais plus trop et je ne l’utilise plus. La 4.5 était la meilleure à sa sortie
J’ai eu la même impression que Codex était magique, mais il suffit d’attendre qu’il casse. Jusqu’à il y a trois jours, j’avais le même ressenti, mais honnêtement j’ai maintenant l’impression qu’il est devenu pire que Claude
Je l’utilise 24 h/24 avec 5 comptes Pro, donc je peux l’affirmer : ce n’est plus du tout comme il y a une semaine, et là il s’est vraiment beaucoup dégradé
- Altman a reconnu jeudi/vendredi que l’état de Codex était catastrophique, et ils essaient de comprendre ce qui a changé
- Il y a eu une baisse de performance à cause d’un problème de cache, et il y a même eu un tweet à ce sujet. Ils ont maintenant rollbacké et, apparemment, les performances sont revenues au niveau de base
- Cinq comptes Pro ? Tu parles de comptes Plus ?

Après des mois de lutte avec Claude, Codex donne l’impression d’être le rêve d’un vibe coder

Ce qui a changé dans mon flux de développement après être passé de Claude à Codex

Les avantages constatés avec GPT-5.5 + Codex

À lire aussi

1 commentaires

Avis sur Hacker News