- ARC-AGI-3 est le premier benchmark de raisonnement interactif conçu pour mesurer l’intelligence de niveau humain des agents IA, et évalue leur capacité à explorer un environnement et à apprendre de manière adaptative
- Toutes les tâches sont constituées d’environnements résolubles par des humains et mesurent l’efficacité de l’acquisition de compétences au fil du temps ainsi que la capacité de planification à long terme
- Il fournit des objectifs clairs et du feedback sans connaissance préalable, tout en conservant une structure de tâches inédite qui empêche les approches fondées sur la mémorisation
- Grâce à la visualisation des replays, à un toolkit développeur et à une UI d’évaluation, il est possible de vérifier de façon transparente les actions et le processus de raisonnement des agents
- Le jeu public de jeux, la documentation, le SDK et les canaux communautaires facilitent la participation à la compétition ARC Prize 2026 ainsi que les tests d’agents
Présentation d’ARC-AGI-3
- ARC-AGI-3 a été conçu comme un benchmark de raisonnement interactif visant à mesurer l’intelligence de niveau humain des agents IA
- Il évalue la capacité des agents à explorer de nouveaux environnements, à identifier leurs objectifs, à construire un modèle du monde adaptable et à apprendre en continu
- Un score de 100 % signifie que l’IA résout tous les jeux avec une efficacité équivalente à celle d’un humain
- Il ne s’agit pas de résoudre des puzzles statiques, mais d’apprendre par l’expérience dans l’environnement et d’ajuster sa stratégie
- Il faut effectuer la perception, la sélection d’actions et l’adaptation stratégique sans instructions en langage naturel
Fonctionnalités principales
- Comprend des runs rejouables, un toolkit développeur pour l’intégration d’agents et une UI d’évaluation transparente
-
Replays et évaluation
- Les actions de l’agent peuvent être visualisées sous forme de replay, ce qui permet de suivre dans l’ordre chronologique la prise de décision, les actions et le processus de raisonnement
- Un exemple de replay est fourni
-
Outils et UI
- Le toolkit ARC-AGI-3 permet d’intégrer des agents, et l’UI interactive permet les tests et les itérations
- Exécution directe possible via le lien Play and test
-
Documentation
- Fournit la documentation nécessaire à la création d’agents, notamment sur la configuration des environnements, l’usage de l’API et le guide d’intégration
- Accessible sur la page de documentation
Ressources associées et communauté
- Public Game Set : ensemble public de jeux
- Docs + SDK : documentation développeur et SDK
- ARC Prize 2026 Track : track de la compétition 2026
- Technical Paper : rapport technique
- Les participants peuvent choisir différents environnements de jeu (
ar25, bp35, ls20, etc.) pour tester leurs propres agents
- Les canaux communautaires officiels incluent Discord, Twitter, YouTube et GitHub
- Il est possible de suivre les annonces de la compétition officielle et les mises à jour via ARC Prize 2026
Aucun commentaire pour le moment.