2 points par shaun0927 1 시간 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Le projet open source Ouroboros, créé par un développeur coréen, a récemment pris la 1re place au classement général du benchmark « AI-assisted discrete-event simulation ».

Ce qui rend ce résultat particulièrement significatif, c’est que, bien qu’il ait été exécuté dans le même environnement Claude Max, il a obtenu de meilleurs résultats que le plan mode natif de Claude.

Ce benchmark n’évaluait pas une simple capacité de programmation, mais une tâche de haut niveau visant à mesurer dans quelle mesure un agent IA peut réellement comprendre un système, le modéliser et produire un résultat de simulation exploitable.

La tâche portait sur un système de transport minier et exigeait, en substance, les capacités suivantes.

  • compréhension de la structure du système, notamment les camions miniers, les points de chargement, les points de déchargement, les itinéraires et les files d’attente
  • abstraction de processus complexes du monde réel en un modèle de discrete-event simulation
  • conception des événements à déclencher, des états à modifier et des métriques à mesurer
  • implémentation d’un code de simulation réellement exécutable
  • interprétation des résultats, comme les goulets d’étranglement, le débit et les temps d’attente
  • génération de livrables faciles à comprendre pour les humains, comme un topology diagram et une animation

Ouroboros a été exécuté dans Claude Code via le workflow ooo, et la soumission allait au-delà d’une simple implémentation de code en incluant une animation de camions miniers transportant du minerai ainsi qu’un topology diagram.

Un autre point intéressant est que, même si le MCP server a échoué pendant l’exécution, Ouroboros a basculé en fallback vers une approche basée sur les skills et a tout de même obtenu un bon résultat. Personnellement, je trouve cet aspect particulièrement important. Dans un environnement réel, les workflows IA ne fonctionnent pas toujours de manière idéale ; la capacité à récupérer après un échec et à continuer via une autre voie est donc essentielle.

La direction que poursuit Ouroboros n’est pas simplement de « faire écrire du code à l’IA ».

Il s’agit de créer un workflow dans lequel l’IA clarifie le problème, établit un plan, exécute, récupère après un échec, évalue le résultat et l’améliore à nouveau si nécessaire.

À mon avis, ce benchmark constitue une bonne validation du fait qu’une telle approche a aussi du sens pour résoudre de vrais problèmes complexes.

Un autre point intéressant est qu’ajouter simplement beaucoup d’instructions ou de gros skills ne produisait pas toujours de meilleurs résultats. Dans ce benchmark, certaines approches basées sur des fat skills (par exemple superpowers) ont même affiché des performances inférieures au plan mode de base, tandis qu’à l’inverse, un workflow structuré comme celui d’Ouroboros — qui organise la définition du problème, la planification, l’exécution, l’évaluation et la reprise après échec — a donné de meilleurs résultats.

Personnellement, je suis fier qu’un workflow IA open source créé par un développeur coréen ait dépassé le plan mode par défaut d’Anthropic. Mais plus important encore, cela me semble être un petit résultat expérimental sur la structure que devront adopter les agents IA pour résoudre de vrais problèmes à l’avenir.

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.