2 points par namcher9428 4 일 전 | 1 commentaires | Partager sur WhatsApp

Quand j’utilisais Codex, le fait que des demandes ambiguës mènent directement à des modifications de code me gênait, donc je suis en train de créer un outil CLI qui structure cela en une procédure de développement plus organisée.

NambaAI n’est pas un outil qui remplace Codex ; il s’apparente plutôt à une couche de workflow qui fonctionne autour de Codex.

L’idée de base est la suivante.

request → SPEC → execution → validation → PR handoff

Autrement dit, au lieu d’envoyer immédiatement la demande de l’utilisateur vers l’implémentation, l’outil aide d’abord à définir l’objectif, le périmètre, les contraintes et les critères d’acceptation, à les consigner dans un fichier SPEC, puis à lancer le travail.

À l’heure actuelle, il s’articule principalement autour du flux suivant.

namba project
namba plan "demande de travail"
namba run SPEC-XXX
namba sync
namba pr
namba land

J’expérimente également un flux de queue pour traiter plusieurs SPEC de manière séquentielle.

Si j’ai créé cet outil, c’est parce qu’à mesure que le coding avec l’IA devient plus pratique, il arrive souvent que le processus de modification ne soit pas traçable, ou qu’il soit difficile de vérifier plus tard sur quels critères l’implémentation a été faite. En particulier, à force d’utiliser Codex de manière répétée, j’ai eu le sentiment que « ce qu’on avait décidé de faire », « jusqu’où allait le périmètre », « comment la validation avait été effectuée » et « ce qu’il fallait regarder dans la PR » pouvaient devenir flous.

NambaAI est une tentative de réduire ce problème de la façon suivante.

  • clarifier d’abord l’objectif et le périmètre avant le travail
  • générer un fichier SPEC avant l’implémentation
  • consigner les résultats d’exécution et les preuves de validation
  • générer un document de handoff pour la PR
  • organiser les changements produits par Codex pour faciliter la revue humaine
  • gérer cela comme un processus de développement reproductible plutôt que comme un prompt ponctuel

L’objectif n’est pas de créer un agent autonome généraliste comme dans les frameworks d’agents IA existants. Pour l’instant, l’accent est mis sur Codex, sur le découpage du travail en unités que les développeurs peuvent examiner, et sur leur traçabilité.

Le projet en est encore à ses débuts, il reste donc beaucoup de points à améliorer.

  • manque d’exemples d’usage réels
  • documentation d’onboarding à améliorer
  • manque d’eval pack
  • revue de sécurité nécessaire pour l’installer/hook
  • tests croisés nécessaires sur macOS, Linux et Windows
  • manque de comparaison avec les AI coding harness existants
  • validation encore insuffisante sur des projets réels

C’est un premier projet open source que j’ai créé moi-même, et il est encore davantage au stade de validation de l’orientation que d’un produit abouti.

J’aimerais particulièrement recueillir des retours de personnes qui utilisent Codex dans leur travail ou sur des projets personnels, notamment sur les points suivants.

  1. Est-ce qu’un workflow Codex basé sur des SPEC semble réellement utile dans un processus de développement ?
  2. Quels aspects paraissent surconçus ?
  3. Quels mécanismes de confiance supplémentaires seraient nécessaires pour l’appliquer à de vrais projets ?
  4. Existe-t-il des outils ou des patterns comparables qu’il vaudrait la peine d’étudier ?
  5. Y a-t-il des points dans le flux d’installation ou d’utilisation qui paraissent gênants ou risqués ?

Les avis critiques sont aussi bienvenus. Comme le projet est encore à un stade précoce, il m’est plus utile aujourd’hui de savoir concrètement où sont ses faiblesses que d’entendre des encouragements.

1 commentaires

 
namcher9428 4 일 전

Je l’ai conçu avec le CLI comme objectif, mais ces derniers temps je l’utilise dans Codex Desktop ! Je craignais qu’il y ait un conflit avec le harnais intégré de Codex Desktop, mais heureusement la compatibilité est très fluide haha.

En plus de cela, il faut aussi refléter le contenu de cette mise à jour 0.131.0 de Codex, et comme je n’utilise que ce harnais, je continue de voir les points qui manquent, mais au final c’est surtout moi qui manque le plus de temps...