ClawWork — un framework de benchmark qui transforme les assistants IA en « collègues IA économiqueme

Projet open source publié en février 2026 par l’équipe de recherche HKUDS de l’Université de Hong Kong. Il s’agit d’un système qui utilise le dataset GDPVal d’OpenAI pour vérifier si des agents IA peuvent réellement gagner de l’argent. Plutôt que de simplement mesurer les performances d’un chatbot, il évalue si une IA peut accomplir un véritable travail professionnel et générer des revenus, sous l’angle de la survie économique.

Idée clé : la pression de la survie économique

L’agent commence avec 10 $. À chaque appel à un LLM, un coût réel en tokens est déduit, et il ne gagne de l’argent qu’en accomplissant des tâches. Chaque jour, l’agent doit choisir entre deux options : travailler (work) pour générer des revenus immédiats, ou apprendre (learn) pour améliorer ses performances à long terme. Le calcul des revenus se veut lui aussi réaliste.

Payment = score de qualité (0.0~1.0) × (temps estimé requis × salaire horaire officiel du BLS)

La valeur des tâches va de 82 $ à 5 004 $, avec une moyenne d’environ 259 $.

Benchmark : dataset GDPVal
Le système utilise le dataset GDPVal, créé par OpenAI pour mesurer la contribution de l’IA au PIB. Il couvre 44 professions et 220 tâches de travail réelles, réparties sur 4 domaines : technologie et ingénierie, business et finance, santé, ainsi que juridique et opérations. Les livrables exigent de vrais fichiers, comme des documents Word, Excel, PDF ou des rapports d’analyse de données, et la qualité est notée via une évaluation LLM basée sur GPT-4o.

Structure

Il s’agit d’une architecture légère reposant sur Nanobot. Les outils de l’agent incluent la recherche web, la création de fichiers (.docx/.xlsx/.pdf), l’exécution de code Python (sandbox isolée E2B), la génération de vidéos, etc. Un dashboard React en temps réel permet de suivre visuellement l’évolution du solde, l’achèvement des tâches et la progression de l’apprentissage. L’intégration avec 9 canaux, dont Telegram, Discord et Slack, est également prise en charge.

Limites

Le « $10K in 7 hours » du titre correspond à un revenu équivalent dans un environnement de simulation isolé, et l’évaluation elle-même est effectuée par GPT-4o. Il faut donc garder à l’esprit que les modèles OpenAI sont notés par un évaluateur lui aussi basé sur OpenAI. Le projet étant très récent, il manque encore de validation par la communauté. Cela dit, le cadre d’évaluation de l’IA par la « survie économique » plutôt que par la seule « précision » reste particulièrement intéressant.

ClawWork — un framework de benchmark qui transforme les assistants IA en « collègues IA économiquement responsables »

Idée clé : la pression de la survie économique

Structure

Limites

Aucun commentaire pour le moment.

ClawWork — un framework de benchmark qui transforme les assistants IA en « collègues IA économiquement responsables »

Idée clé : la pression de la survie économique

Structure

Limites

À lire aussi

Aucun commentaire pour le moment.