- ARC-AGI-3 est le premier benchmark de raisonnement interactif conçu pour mesurer l’intelligence de niveau humain des agents IA, et évalue leur capacité à explorer un environnement et à apprendre de manière adaptative
- Toutes les tâches sont constituées d’environnements résolubles par des humains et mesurent l’efficacité de l’acquisition de compétences au fil du temps ainsi que la capacité de planification à long terme
- Il fournit des objectifs clairs et du feedback sans connaissance préalable, tout en conservant une structure de tâches inédite qui empêche les approches fondées sur la mémorisation
- Grâce à la visualisation des replays, à un toolkit développeur et à une UI d’évaluation, il est possible de vérifier de façon transparente les actions et le processus de raisonnement des agents
- Le jeu public de jeux, la documentation, le SDK et les canaux communautaires facilitent la participation à la compétition ARC Prize 2026 ainsi que les tests d’agents
Présentation d’ARC-AGI-3
- ARC-AGI-3 a été conçu comme un benchmark de raisonnement interactif visant à mesurer l’intelligence de niveau humain des agents IA
- Il évalue la capacité des agents à explorer de nouveaux environnements, à identifier leurs objectifs, à construire un modèle du monde adaptable et à apprendre en continu
- Un score de 100 % signifie que l’IA résout tous les jeux avec une efficacité équivalente à celle d’un humain
- Il ne s’agit pas de résoudre des puzzles statiques, mais d’apprendre par l’expérience dans l’environnement et d’ajuster sa stratégie
- Il faut effectuer la perception, la sélection d’actions et l’adaptation stratégique sans instructions en langage naturel
Fonctionnalités principales
- Comprend des runs rejouables, un toolkit développeur pour l’intégration d’agents et une UI d’évaluation transparente
-
Replays et évaluation
- Les actions de l’agent peuvent être visualisées sous forme de replay, ce qui permet de suivre dans l’ordre chronologique la prise de décision, les actions et le processus de raisonnement
- Un exemple de replay est fourni
-
Outils et UI
- Le toolkit ARC-AGI-3 permet d’intégrer des agents, et l’UI interactive permet les tests et les itérations
- Exécution directe possible via le lien Play and test
-
Documentation
- Fournit la documentation nécessaire à la création d’agents, notamment sur la configuration des environnements, l’usage de l’API et le guide d’intégration
- Accessible sur la page de documentation
Ressources associées et communauté
- Public Game Set : ensemble public de jeux
- Docs + SDK : documentation développeur et SDK
- ARC Prize 2026 Track : track de la compétition 2026
- Technical Paper : rapport technique
- Les participants peuvent choisir différents environnements de jeu (
ar25, bp35, ls20, etc.) pour tester leurs propres agents
- Les canaux communautaires officiels incluent Discord, Twitter, YouTube et GitHub
- Il est possible de suivre les annonces de la compétition officielle et les mises à jour via ARC Prize 2026
1 commentaires
Commentaires Hacker News
En regardant le tweet de scaling01, plusieurs problèmes dans la méthode d’évaluation d’ARC-AGI-3 sont soulignés
Le repère humain est défini comme « le deuxième humain le plus rapide », et le score n’est pas un simple taux de réussite mais est calculé à partir du carré de l’efficacité
Autrement dit, si un humain résout un problème en 10 étapes et qu’un modèle le résout en 100 étapes, il n’obtient qu’un score de 1 %
De plus, 100 % signifie seulement que tous les niveaux ont été résolus, pas que l’on a atteint un niveau humain
Cette conception fait qu’un modèle ne peut pas obtenir 100 %, même s’il est au niveau humain
Le prompt est simple, et le modèle ne peut pas utiliser plus de 5 fois le nombre d’étapes d’un humain
Le fait de donner davantage de poids aux niveaux avancés viserait aussi à détecter un apprentissage continu
À propos de l’idée que « tant qu’il existe un écart entre l’apprentissage de l’IA et celui des humains, ce n’est pas de l’AGI », cela rappelle une analogie de l’époque de Deep Blue dans les années 90
Dire qu’un avion ne vole pas parce qu’il ne bat pas des ailes comme un oiseau n’a pas de sens ; de la même façon, apprendre autrement que les humains n’invalide pas l’intelligence
Je pense que l’approche d’ARC est une excellente méthode d’évaluation de l’AGI
Sa structure est simple : on donne les mêmes entrées aux humains et à l’IA, puis on compare les résultats
Le mot clé est « General », et ARC cherche justement à mesurer cette généralité
La question de savoir si l’IA est utile ou non est secondaire. Ce test est la tentative la plus convaincante à ce jour
D’ailleurs, lorsqu’on pose à une IA des questions relevant de son propre domaine d’expertise, on voit souvent qu’elle se trompe. Nous avons tendance à confondre savoir et intelligence
En voyant ce genre de benchmark, une question vient à l’esprit : qu’est-ce qui empêcherait OpenAI d’embaucher des gens pour fabriquer le dataset ?
Après avoir essayé plusieurs niveaux moi-même, j’ai réalisé avec certitude que je ne suis pas une AGI
Je suis un peu sceptique
Quelqu’un habitué aux jeux réussira probablement à 100 %, mais une grand-mère qui utilise un ordinateur pour la première fois échouera complètement. Pour les LLM, c’est pareil
Au final, des modèles entraînés sur ce type de données de jeu s’adapteront facilement, et cela ne sera pas de l’AGI
J’ai vu ce projet en direct lors d’un événement de lancement YC, et cela m’a inspiré pour la première fois depuis longtemps
J’ai aussi entendu qu’en expérimentant ARC2, quelqu’un avait trouvé un moyen de faire bouger un bras robotique plus efficacement
Le simple fait d’améliorer le score a donc débouché sur une véritable innovation en robotique
ARC-4, 5 et 6 sont aussi prévus, et l’objectif serait à terme des modèles capables de résoudre des problèmes en zéro contexte
Je ne sais pas si ARC-AGI a un lien direct avec l’AGI
Au fond, cela ne mesure que les performances des LLM sur un type particulier de jeu
Il existe déjà beaucoup de jeux où les ordinateurs dominent largement les humains, que ces derniers soient bons ou non à celui-ci
La vraie question est donc de savoir si ces jeux sont représentatifs de l’intelligence
J’ai été l’un des testeurs humains de ce jeu
J’ai résolu 25 jeux en 90 minutes, et même si les consignes demandaient de minimiser le nombre d’actions, je me suis en pratique concentré sur la vitesse à cause de la prime de rapidité (5 $ par jeu)
Il est donc probable que les données de référence humaines aient enregistré plus d’actions que nécessaire
Ce que je préfère dans le leaderboard ARC-AGI, c’est le graphique performance/coût
Les progrès récents de l’IA s’accompagnent pour la plupart d’une hausse de la consommation électrique. En fin de compte, plus on consomme d’électricité, meilleurs sont les résultats