Codex pour presque tout
(openai.com)- L’application Codex bénéficie d’une mise à jour majeure et permet désormais d’effectuer l’ensemble du processus de développement logiciel dans un seul espace de travail
- Elle peut contrôler directement l’ordinateur, utiliser les outils et applications du travail quotidien, et ajoute la génération d’images, l’apprentissage des actions passées et l’exécution de tâches répétitives pour automatiser et étendre le workflow de développement
- L’application desktop inclut la revue de PR, l’affichage multi-fichiers/multi-terminaux, la connexion SSH à un devbox distant et un navigateur intégré, ce qui accélère l’itération sur le design frontend ainsi que sur les applications et jeux
- Plus de 90 plugins et le modèle gpt-image-1.5 sont intégrés afin d’offrir un environnement unifié, de l’écriture du code au design, aux tests et à la collaboration
- La réutilisation des fils de discussion existants, la planification automatique des tâches de long terme et un aperçu de la mémoire assurent la continuité du travail sur plusieurs jours à plusieurs semaines
Principales mises à jour de Codex
- L’application Codex a reçu une mise à jour majeure pour macOS et Windows, et s’étend pour devenir un outil prenant en charge l’ensemble du processus de développement logiciel pour plus de 3 millions de développeurs actifs chaque semaine
- Cette nouvelle version ajoute des fonctions de contrôle de l’ordinateur, génération d’images, mémoire, plugins et navigateur intégré, afin d’accélérer les workflows des développeurs
- Les fonctions orientées développement sont renforcées, avec notamment la revue de PR, l’affichage multi-fichiers et multi-terminaux, ainsi que la connexion à un devbox distant via SSH
- Toutes ces améliorations sont intégrées pour permettre d’écrire du code, vérifier les résultats, examiner les modifications et collaborer dans un seul espace de travail
-
Contrôle de l’ordinateur et travail en parallèle
- Grâce à la fonction de contrôle de l’ordinateur en arrière-plan, il est possible de cliquer, saisir et naviguer directement sur l’ordinateur de l’utilisateur
- Elle utilise son propre curseur pour manipuler les applications, ce qui permet d’effectuer des tests ou des tâches répétitives même dans des applications sans API
- Plusieurs agents peuvent travailler en parallèle sur un Mac, sans interférer avec l’utilisation des autres applications par l’utilisateur
- Cette fonction est utile pour itérer sur des changements frontend, tester des applications et travailler dans des environnements sans API
- Grâce à la fonction de contrôle de l’ordinateur en arrière-plan, il est possible de cliquer, saisir et naviguer directement sur l’ordinateur de l’utilisateur
-
Intégration web et navigateur
- L’intégration avec le web est native et, via le navigateur intégré, il est possible d’annoter directement une page web pour donner des consignes précises à Codex
- Pour l’instant, cela est surtout utile pour le développement frontend et de jeux, avec une extension prévue à terme vers un contrôle complet du navigateur, au-delà des applications web en localhost
-
Génération d’images et workflow visuel
- Utilisation du modèle gpt-image-1.5 pour générer des images et effectuer des itérations
- En le combinant avec des captures d’écran et du code, il devient possible de produire des concepts produit, des designs frontend, des maquettes et des visuels de jeu dans un même workflow
-
Extension par plugins
- Plus de 90 nouveaux plugins ont été ajoutés, avec la prise en charge de l’intégration à diverses applications et serveurs MCP
- Plugins principaux : Atlassian Rovo (gestion JIRA), CircleCI, CodeRabbit, GitLab Issues, Microsoft Suite, Neon by Databricks, Remotion, Render, Superpowers
- Les plugins permettent à Codex de collecter davantage de contexte et d’exécuter automatiquement plus de tâches
-
Renforcement du workflow développeur
- Prise en charge du traitement des commentaires de revue GitHub, de l’exécution de plusieurs onglets de terminal et de la connexion à un devbox distant via SSH (phase alpha)
- Ouverture directe des fichiers depuis la barre latérale et aperçus enrichis des PDF, feuilles de calcul, slides et documents
- Ajout d’un nouveau panneau de résumé (summary pane) pour suivre les plans des agents, les sources et les livrables
- La possibilité de passer, dans un seul espace de travail, de l’écriture du code à la vérification des résultats, à la revue des changements et à la collaboration entre agents accélère les transitions entre les étapes du cycle de développement
-
Automatisation et travail de long terme
- Les fonctions d’automatisation ont été étendues pour réutiliser les fils de discussion existants et conserver le contexte accumulé
- Codex peut planifier lui-même des tâches futures et les reprendre automatiquement, ce qui permet de poursuivre des travaux de long terme sur plusieurs jours ou plusieurs semaines
- Cas d’usage en équipe : fusion de PR ouvertes, suivi des tâches et traçage rapide des conversations à travers des outils comme Slack, Gmail et Notion
-
Mémoire et personnalisation
- Grâce à la fonction d’aperçu de la mémoire (preview of memory), Codex se souvient de contextes utiles du passé (préférences personnelles, corrections, informations collectées, etc.)
- Cela permet, dans les futurs travaux, d’atteindre un niveau de qualité et de rapidité qui nécessitait auparavant de larges instructions personnalisées
- Codex propose de manière proactive de reprendre là où le travail s’est arrêté et utilise le projet, les plugins connectés et le contexte mémoire pour générer automatiquement des suggestions de tâches et une liste de priorités
- Exemple : identification de commentaires à vérifier dans Google Docs → collecte du contexte pertinent dans Slack, Notion et la codebase → fourniture d’une liste d’actions priorisée
- Grâce à la fonction d’aperçu de la mémoire (preview of memory), Codex se souvient de contextes utiles du passé (préférences personnelles, corrections, informations collectées, etc.)
-
Plan de déploiement et périmètre de disponibilité
- Déploiement progressif auprès des utilisateurs de l’application desktop Codex connectés avec un compte ChatGPT
- Les fonctions de personnalisation (suggestions contextuelles, mémoire) seront bientôt disponibles pour les utilisateurs Enterprise, Edu, de l’UE et du Royaume-Uni
- La fonction de contrôle de l’ordinateur est d’abord proposée sur macOS, avant une extension prévue à l’UE et au Royaume-Uni
Évolution et objectif de Codex
- Un an après son lancement, Codex a étendu son champ d’usage au-delà de la simple écriture de code, vers la compréhension des systèmes, la collecte de contexte, la revue, le débogage, la collaboration et la gestion de tâches de long terme
- OpenAI affirme viser un monde où l’AGI profite à l’ensemble de l’humanité, et cette mise à jour a été conçue pour réduire l’écart entre ce que les humains imaginent et ce qu’ils peuvent réellement construire
- À l’avenir, Codex doit s’intégrer encore plus étroitement aux outils, workflows et prises de décision du processus de création logicielle
6 commentaires
Une version payante d'Openclaw, donc…
Ce n’est pas encore pour Windows, n’est-ce pas ? C’est une mise à jour pour Mac, non ?
Quand je demande un web design, il le fait toujours en style cartes ; quand est-ce qu’il va corriger ça ? S’il corrige juste ça, je pense que je n’utiliserai plus du tout Claude.
Je ne l’ai utilisé qu’en le connectant à VSCode, mais il va falloir que j’essaie aussi l’app.
Comme j’utilise principalement Codex en ce moment, c’est une mise à jour vraiment bienvenue.
openai-oauth - Utiliser gratuitement l’API OpenAI avec un compte ChatGPT
En utilisant ça, il devrait désormais être possible de générer des images aussi.
Commentaires sur Hacker News
À lire les commentaires, beaucoup de gens semblent ignorer que Claude Desktop et Cowork offrent déjà ce genre de fonctionnalités
Codex donne moins l’impression d’innover que de rattraper son retard
OpenAI a moins de clients enterprise, donc peut subventionner davantage de ressources de calcul pour les particuliers
Au final, si le nombre d’utilisateurs augmente, ils finiront comme Anthropic. Pour l’instant, ce n’est qu’une stratégie de RP
Codex peut cliquer dans des apps, taper du texte en arrière-plan, et plusieurs agents peuvent travailler en parallèle
Comme je l’expliquais dans mon billet de blog, l’IA doit travailler de façon plus proactive
Par exemple, des résumés Slack, l’intégration de comptes-rendus de réunion, ou la génération automatique de notes de préparation de réunion sont déjà possibles, mais personne ne le fait
Au fond, l’enjeu clé, c’est la gestion de l’attention, et l’IA devrait nous aider à savoir sur quoi nous concentrer
Dans les UI récentes, on voit une forte tendance à masquer le code
Le prompt devient la vraie source, et le code est traité comme un sous-produit intermédiaire pénible
De cette manière, ça va plus vite et le résultat ressemble à du code que j’aurais moi-même écrit
Nous savons déjà automatiser les choses, mais la plupart des gens non
Aujourd’hui, les langages de haut niveau peuvent sembler étranges, mais au fond, c’est simplement une augmentation des niveaux d’abstraction
Le prompt engineering aussi finit par constituer un autre système de langage artificiel
Il y a beaucoup de scepticisme, mais je pense que ça va se diffuser largement
J’utilise le CLI depuis 25 ans, mais ces jours-ci je remplace des tâches terminal par Codex
Si une bonne version GUI voit le jour, les utilisateurs ordinaires s’y habitueront vite
Une configuration qui prenait autrefois des heures se fait maintenant en quelques secondes
À part les apps qui exigent une GUI, la plupart des tâches peuvent être gérées avec une IA textuelle
Je me demande vraiment si l’on veut que Codex contrôle directement l’ordinateur et les apps
Pour ma part, j’accorde toujours une grande importance à la sécurité par sandbox
OpenAI semble préparer des lancements non publics pour les faire coïncider avec les annonces des concurrents
Le calendrier avec la presse et les influenceurs est coordonné à l’avance
Dans la deuxième vidéo, le prompt était : « réduis la taille de la police et la longueur du slogan »
On en est donc à utiliser les LLM pour ajuster la taille d’une police
Dans la troisième vidéo, c’était « génère une image pour la section hero »,
et utiliser des images générées par IA pour présenter un produit paraît vraiment trop artificiel
Honnêtement, je ne sais pas trop à quoi ça devrait me servir
C’est utile comme aide au code, mais je n’ai pas envie de le laisser manipuler directement mon ordinateur
Pour faire un résumé Slack, à la rigueur, mais pour l’instant ça ressemble à une solution qui cherche à résoudre un problème inexistant
Je pense que les agents spécialisés comme Cowork/Codex seront la famille de produits qui grandira le plus vite côté non-développeurs
Ces agents utiliseront des logiciels à la place des humains
Comme je l’expliquais aussi dans cet article,
c’est en fin de compte toute la structure du marché logiciel qui va changer
Et cela augmente d’autant les risques de sécurité
Il lit les e-mails et les comptes-rendus de réunion, planifie le travail, l’exécute, puis envoie même un résumé
C’est possible parce que la majorité du travail de la connaissance peut finalement s’exprimer sous forme de code
Si la connexion aux données est bien faite, le marché du B2B SaaS s’ouvrira
Je me demande si Codex lit toujours des fichiers sensibles sans le consentement de l’utilisateur
Il y a un ticket à ce sujet sur GitHub
Le plus sûr reste de l’exécuter sur une machine séparée sans données sensibles
Le nom Codex prête à confusion
L’un est un outil de programmation orienté agent, l’autre une app GUI pour Mac/Windows, mais ils portent le même nom