OpenAI dévoile l’application Codex pour macOS
(openai.com)- Environnement de développement intégré pour l’IA permettant de gérer plusieurs agents IA simultanément, avec prise en charge du travail en parallèle et de la collaboration de longue durée
- Chaque agent s’exécute dans un thread indépendant, ce qui permet le multitâche par projet, la revue de code, les commentaires sur les diff et les modifications manuelles
- La fonctionnalité Skills étend l’usage au-delà de l’écriture de code vers la collecte d’informations, la résolution de problèmes, la génération d’images, la rédaction de documents, le déploiement cloud, etc.
- La fonctionnalité Automations permet d’exécuter automatiquement des tâches répétitives en arrière-plan selon un calendrier défini
- La sécurité par sandbox est appliquée par défaut, et les commandes nécessitant des privilèges élevés, comme l’accès réseau, requièrent l’approbation de l’utilisateur
- Codex est aussi proposé temporairement aux utilisateurs de ChatGPT Free et Go, tandis que les offres payantes voient leur limite d’usage doublée
Présentation de l’application Codex : un centre de commande pour les agents
- Depuis le lancement de Codex en avril 2025, la manière dont les développeurs utilisent les agents a changé en profondeur
- Les modèles sont désormais capables de prendre en charge des tâches complexes et de longue durée du début à la fin
- Les développeurs peuvent maintenant orchestrer plusieurs agents à l’échelle d’un projet entier, leur déléguer des tâches et les exécuter en parallèle
- L’enjeu central est passé de « ce que les agents peuvent faire » à « comment les humains peuvent diriger, superviser et faire collaborer des agents à grande échelle »
- Les IDE existants et les outils en ligne de commande n’ont pas été conçus pour prendre en charge cette manière de travailler, d’où le besoin d’un nouvel outil
- L’application Codex pour macOS permet de gérer plusieurs agents IA en même temps et de lancer des tâches en parallèle
- Elle prend en charge les tâches de longue durée et permet, grâce à la collaboration entre agents, de gérer l’ensemble du cycle de conception, développement, déploiement et maintenance logicielle
Travail parallèle multi-agents
- L’application Codex fournit un espace dédié au multitâche avec des agents
- Les agents s’exécutent dans des threads séparés configurés par projet, ce qui permet de passer d’une tâche à l’autre sans perte de contexte
- Dans chaque thread, il est possible d’examiner les modifications de l’agent, de commenter les diff ou de modifier directement dans l’éditeur
- La prise en charge native des worktrees permet à plusieurs agents de travailler sur le même dépôt sans conflit
- Chaque agent travaille sur une copie isolée du code, ce qui permet d’explorer différentes pistes sans affecter l’état local de git
- Il est possible de checkout localement les changements d’un agent en cours de travail, ou de le laisser continuer sans modifier l’état git local
- L’historique des sessions et les paramètres sont importés automatiquement depuis Codex CLI et l’extension IDE, ce qui permet de l’utiliser immédiatement sur les projets existants
Skills : au-delà de la génération de code
- Codex évolue d’un agent qui écrit du code vers un agent qui utilise le code pour effectuer des tâches sur l’ordinateur
- Les Skills permettent d’étendre ses capacités au-delà de la génération de code vers la collecte et la synthèse d’informations, la résolution de problèmes, la rédaction, etc.
- Elles regroupent des instructions, des ressources et des scripts afin que Codex puisse se connecter à des outils et exécuter des workflows
- Les tâches peuvent ainsi être menées à bien de manière fiable selon les préférences de l’équipe
- L’application Codex inclut une interface dédiée à la création et à la gestion des Skills
- Il est possible de demander explicitement l’usage de certaines Skills ou de les activer automatiquement selon la tâche
-
Exemple d’usage des Skills : création d’un jeu de course
- Demande faite à Codex de créer un jeu de course avec plusieurs pilotes, 8 cartes et des objets utilisables avec la barre d’espace
- Utilisation d’une Skill de génération d’images (basée sur GPT Image) et d’une Skill de développement de jeux web
- À partir d’un seul prompt initial, Codex a travaillé de manière autonome sur plus de 7 millions de tokens pour finaliser le jeu
- Il a joué les rôles de designer, développeur de jeu et testeur QA, en jouant réellement au jeu pour le valider
- Nom du jeu : Voxel Velocity, un kart racer voxel 3D utilisant Three.js
- Mode course solo (toujours 3 tours, 1 humain contre 7 CPU, 8 circuits disponibles immédiatement)
- Modèle de conduite arcade, système de charge de drift, niveaux de boost (Tier 1 0,7 seconde, Tier 2 1,1 seconde, Tier 3 1,5 seconde)
- 8 personnages, 8 objets, préréglages de difficulté CPU, implémentation de splines IA
- Demande faite à Codex de créer un jeu de course avec plusieurs pilotes, 8 cartes et des objets utilisables avec la barre d’espace
-
Principales Skills proposées
- Implement designs : récupère depuis Figma le contexte de design, les assets et les captures d’écran pour les transformer en code UI de production avec une fidélité visuelle 1:1
- Manage projects : tri des bugs, suivi des releases et gestion de la charge d’équipe dans Linear
- Deploy to the cloud : déploiement d’applications web chez les principaux hébergeurs cloud comme Cloudflare, Netlify, Render et Vercel
- Generate images : Skill de génération d’images basée sur GPT Image pour créer et modifier des images destinées à des sites web, maquettes UI, visuels produit ou assets de jeu
- Build with OpenAI APIs : lors du développement avec l’API OpenAI, référence la documentation la plus récente
- Create documents : lecture, création et édition de fichiers PDF, feuilles de calcul et docx (avec prise en charge d’une mise en forme et d’une mise en page professionnelles)
- Toute nouvelle Skill créée dans l’application peut être utilisée depuis l’application, la CLI ou l’extension IDE
- Les Skills peuvent être versionnées dans le dépôt afin d’être partagées avec toute l’équipe
Automations : automatiser les tâches répétitives
- La fonctionnalité Automations permet à Codex d’exécuter automatiquement des tâches en arrière-plan selon un calendrier défini
- Elle se configure en combinant des instructions et, si besoin, des Skills optionnelles
- Une fois la tâche terminée, les résultats sont enregistrés dans une file d’attente de revue pour pouvoir reprendre ensuite si nécessaire
- Exemples d’usage en interne chez OpenAI
- Tri quotidien des issues
- Recherche et résumé des échecs CI
- Génération d’un brief quotidien de release
- Vérification des bugs
Personality : personnaliser le style de travail
- Chaque développeur a ses préférences dans sa manière de travailler avec un agent
- Certains veulent un partenaire concis et orienté exécution
- D’autres préfèrent une interaction plus conversationnelle et empathique
- Codex propose deux personnalités : un style concis et pragmatique, ou un style conversationnel et empathique
- Cela adapte la forme sans modifier les fonctionnalités
- Le réglage se fait via la commande /personality dans l’application, la CLI et l’extension IDE
Sécurité : activée par défaut et configurable
- La sécurité est intégrée dès la conception dans toute la pile d’agents Codex
- Comme Codex CLI, l’application utilise un sandboxing natif, open source et configurable au niveau système
- Configuration par défaut
- Les agents ne peuvent modifier que les fichiers du dossier ou de la branche en cours, et n’ont accès qu’à la recherche web mise en cache
- Les commandes nécessitant des privilèges élevés, comme l’accès réseau, demandent une approbation de l’utilisateur
- Il est possible de définir des règles par projet ou par équipe pour autoriser automatiquement certaines commandes à s’exécuter avec des privilèges élevés
Disponibilité et prix
- L’application Codex est disponible dès aujourd’hui sur macOS
- Les abonnés ChatGPT Plus, Pro, Business, Enterprise et Edu peuvent utiliser Codex dans la CLI, sur le web, dans l’extension IDE et dans l’application via leur connexion ChatGPT
- L’usage est inclus dans l’abonnement ChatGPT, avec une option d’achat de crédits supplémentaires si nécessaire
- Codex est également proposé à titre temporaire aux utilisateurs de ChatGPT Free et Go
- Pendant cette période, les utilisateurs existants de Codex sur toutes les offres payantes bénéficient d’une limite d’usage doublée
Feuille de route
- Depuis le lancement de GPT-5.2-Codex à la mi-décembre 2024, l’usage global de Codex a doublé
- Au cours du dernier mois, plus d’un million de développeurs ont utilisé Codex
- Prochaines étapes
- Lancement prévu d’une application Windows
- Extension des capacités à la frontière des modèles
- Raisonnement plus rapide
- Améliorations dans l’application
- Amélioration continue des workflows multi-agents sur la base des retours du terrain
- Gestion simplifiée du travail en parallèle et meilleure conservation du contexte lors du passage d’un agent à l’autre
- Extension d’Automations
- Prise en charge en cours de développement de déclencheurs basés sur le cloud
- Codex pourra ainsi continuer à s’exécuter en arrière-plan même lorsque l’ordinateur n’est pas ouvert
Le postulat central de Codex
- Tout repose sur un postulat simple : tout est contrôlé par le code
- Plus un agent est capable de raisonner sur le code et d’en générer, plus il devient compétent pour toutes les formes de travail technique et intellectuel
- L’enjeu central actuel est l’écart entre les capacités des modèles de pointe et la facilité avec laquelle les gens peuvent réellement les utiliser
- Codex a été conçu pour combler cet écart, en permettant de diriger, superviser et appliquer facilement toute l’intelligence du modèle à des tâches concrètes
- L’accent a été mis sur la création du meilleur agent de code, qui servira de base à un agent puissant pour un large éventail de travaux intellectuels au-delà de l’écriture de code
9 commentaires
Je l’ai essayé aujourd’hui, et c’est vraiment excellent ?
On dirait que les forks de VSCode doivent se préparer à leur disparition.
Bien sûr, il est aussi possible que les emplois des développeurs diminuent.
On dirait que c’est compliqué de faire quoi que ce soit sur Windows, puisqu’il n’y a pas de technologie de sandbox.
Donnez-moi WSL ou Windows...
Moi aussi, en ce moment, Codex est devenu mon outil principal, et c’est vraiment bien. J’espère qu’une version Windows sortira vite.
Au premier lancement, il réimporte tous les projets sur lesquels on travaillait déjà avec Codex et les affiche à la suite à gauche, par projet ou par thread, donc c’est parfait pour en faire tourner plusieurs en même temps.
Y a-t-il une raison pour laquelle Codex est mis en avant plutôt que Claude Code ?
J’ai plutôt tendance à balancer de longs documents de planification en disant de bosser dessus, et Codex s’adapte mieux à cette façon de faire. Et clairement, on se heurte beaucoup moins à la limite de débit. Même avec un compte bon marché, je fais souvent tourner plusieurs projets en même temps.
Oh, merci pour le commentaire.
Le fait que le créateur d’OpenClaw utilise aussi Codex, déjà,
Codex n’a pas l’air d’avoir mauvaise réputation non plus, mais quand on lit les commentaires sur Hacker News, on se dit que ce n’est peut-être pas le cas non plus...
Vraiment, une version Windows/Linux, s'il vous plaît T_T
J'avais aussi envie d'essayer Atlas, le navigateur ChatGPT, mais ils avaient annoncé « Windows coming soon » et depuis, plus aucune nouvelle pendant un bon moment.
Commentaires sur Hacker News
La plupart ne sont guère plus qu’une simple interface de chat, et avec Electron il est difficile d’appeler directement les API de l’OS (par ex. Win32), ce qui rend une intégration profonde impossible
Des logiciels complexes comme Blender, Godot, Unity ou UE5 tournent tous en natif, donc c’est frustrant de voir ces entreprises se contenter d’excuses
Sur Windows, Electron est de fait le standard, et même Microsoft l’utilise souvent
macOS est bien mieux loti, mais les équipes finissent soit enfermées dans du Mac-only, soit par choisir Electron pour rester multiplateforme
L’UI d’UE5 n’a presque rien de natif, et il est difficile de dire qu’elle fait mieux qu’Electron
Electron permet aussi d’appeler des API natives
La plupart des utilisateurs se moquent de savoir si une app est native ou non, et pour les entreprises, pouvoir réutiliser des développeurs web pour le développement d’apps desktop est un énorme avantage
Les TUI ou GUI ajoutent une couche d’abstraction inutile qui complique l’automatisation
L’essentiel, c’est des appels de commande simples et une journalisation des logs. Les [modes headless ou journaux de session] vont davantage dans cette direction
La plupart des gens ne se soucient pas du fait qu’une app soit faite avec des technologies web
Grâce à Electron, le portage Linux devient aussi plus facile. En s’obstinant à ne faire que du natif, ce genre de chose aurait été impossible
Ce n’est pas parfait, mais il produit de manière régulière des résultats du niveau d’un ingénieur intermédiaire
En revanche, l’app reste bloquée sur « Loading projects… »
Le lien vers la documentation était aussi cassé, mais ce lien fonctionne maintenant
J’utilise plusieurs environnements VM avec VS Code Remote, donc je vais sans doute devoir ajuster un peu les réglages d’offset de ports
Codex a souvent tendance à boucler pendant la résolution d’un problème, et Claude est très bon pour finaliser ce genre de cas
Alterner entre les deux modèles est assez efficace
Cela dit, ça s’améliore constamment, donc j’ai bon espoir
Cowork appelle Claude Code dans une VM, tandis que Codex exécute la CLI dans un sandbox de l’OS
La stack technique se compose notamment d’Electron 40, React 19, TypeScript, Node.js, SQLite et Vite
Sur macOS, il utilise notamment Sparkle, Squirrel et Sentry
Il ne suit pas les instructions, s’arrête au milieu ou balance du code hors sujet
Il manque de données récentes sur Nuxt 4+, donc il produit sans cesse des erreurs
La fonction Undo ne marche pas correctement non plus, et il n’y a aucun feedback
Claude Code a fait le même travail d’un coup, alors que Codex a pris longtemps pour un résultat médiocre
Ça m’a rappelé l’époque où j’utilisais un Nokia N800 : il y a du potentiel, mais le niveau de finition est trop faible, au point de m’inquiéter pour la direction prise par OpenAI
Je me demande si Anthropic va aussi sortir une app multi-agents Claude Code du même genre
S’il existe un contrat clair (définition d’API, etc.), il est plus efficace de travailler en parallèle dans des sessions indépendantes
J’ai failli construire quelque chose de similaire moi-même
L’idée clé du papier Recursive Language Models consiste à gérer les exigences, la conception, la planification, etc. comme des objets immuables, plutôt que comme du contexte
De mon côté, je gère chaque étape (spec, analysis, plan, etc.) dans des fichiers .md, avec un processus kanban incluant des étapes d’approbation
De cette manière, ça fonctionne bien sans UI, la qualité du code se maintient, et à long terme la vitesse de développement est multipliée par 10
Avec
.claude/commandset.claude/agents, on peut lancer plusieurs tâches en même tempsCodex repère bien ce que Claude laisse passer, et utiliser les deux modèles de façon complémentaire améliore l’efficacité
Codex a pour avantage d’être bon marché et presque illimité en volume d’usage, tandis que Claude offre une meilleure qualité
Il structure le processus à partir d’un plan.md, et permet d’ajouter dynamiquement des étapes ou des hooks
C’est pratique de pouvoir piloter l’automatisation des workflows à partir de documents
Je paie déjà pour les trois grands modèles, donc je doute que ce genre de service tienne longtemps
Ils disent avoir utilisé 7 millions de tokens, et pourtant ils n’ont pas repéré ce type d’erreur QA, ce qui est surprenant
Ce genre de problème subtil est difficile à détecter avec un test harness ou un agent QA
Avec plus de tokens, seule la finition semble s’améliorer, mais le jeu reste le même. Je me demande à quoi ont servi ces tokens supplémentaires
Je me demande si la version CLI finira par prendre en charge les mêmes fonctions
Une fonction de cluster managé capable de tourner uniquement sur un réseau interne serait bienvenue
L’idéal serait aussi de pouvoir partager l’avancement du travail avec les membres de l’équipe
Ce serait bien plus pratique si ce type de fonctionnalité était directement pris en charge par l’outil
La qualité récente de GPT-5.x a aussi baissé, et cette annonce limitée à une sortie Mac uniquement est décevante
L’article contient aussi beaucoup de fautes de frappe, et le fait de ne pas divulguer les prompts réellement utilisés me gêne
Cela dit, si ça s’améliore, je serais prêt à réessayer
C’est sans doute parce qu’on s’est habitué à la vitesse de Sonnet ou de Gemini 3.0 Flash
Un ChatGPT à 20 $ est plus efficace qu’un Claude à 200 $