1 points par GN⁺ 2026-03-27 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • ARC-AGI-3 est le premier benchmark de raisonnement interactif conçu pour mesurer l’intelligence de niveau humain des agents IA, et évalue leur capacité à explorer un environnement et à apprendre de manière adaptative
  • Toutes les tâches sont constituées d’environnements résolubles par des humains et mesurent l’efficacité de l’acquisition de compétences au fil du temps ainsi que la capacité de planification à long terme
  • Il fournit des objectifs clairs et du feedback sans connaissance préalable, tout en conservant une structure de tâches inédite qui empêche les approches fondées sur la mémorisation
  • Grâce à la visualisation des replays, à un toolkit développeur et à une UI d’évaluation, il est possible de vérifier de façon transparente les actions et le processus de raisonnement des agents
  • Le jeu public de jeux, la documentation, le SDK et les canaux communautaires facilitent la participation à la compétition ARC Prize 2026 ainsi que les tests d’agents

Présentation d’ARC-AGI-3

  • ARC-AGI-3 a été conçu comme un benchmark de raisonnement interactif visant à mesurer l’intelligence de niveau humain des agents IA
    • Il évalue la capacité des agents à explorer de nouveaux environnements, à identifier leurs objectifs, à construire un modèle du monde adaptable et à apprendre en continu
    • Un score de 100 % signifie que l’IA résout tous les jeux avec une efficacité équivalente à celle d’un humain
    • Il ne s’agit pas de résoudre des puzzles statiques, mais d’apprendre par l’expérience dans l’environnement et d’ajuster sa stratégie
    • Il faut effectuer la perception, la sélection d’actions et l’adaptation stratégique sans instructions en langage naturel

Fonctionnalités principales

  • Comprend des runs rejouables, un toolkit développeur pour l’intégration d’agents et une UI d’évaluation transparente
  • Replays et évaluation

    • Les actions de l’agent peuvent être visualisées sous forme de replay, ce qui permet de suivre dans l’ordre chronologique la prise de décision, les actions et le processus de raisonnement
    • Un exemple de replay est fourni
  • Outils et UI

    • Le toolkit ARC-AGI-3 permet d’intégrer des agents, et l’UI interactive permet les tests et les itérations
    • Exécution directe possible via le lien Play and test
  • Documentation

    • Fournit la documentation nécessaire à la création d’agents, notamment sur la configuration des environnements, l’usage de l’API et le guide d’intégration
    • Accessible sur la page de documentation

Ressources associées et communauté

  • Public Game Set : ensemble public de jeux
  • Docs + SDK : documentation développeur et SDK
  • ARC Prize 2026 Track : track de la compétition 2026
  • Technical Paper : rapport technique
  • Les participants peuvent choisir différents environnements de jeu (ar25, bp35, ls20, etc.) pour tester leurs propres agents
  • Les canaux communautaires officiels incluent Discord, Twitter, YouTube et GitHub
  • Il est possible de suivre les annonces de la compétition officielle et les mises à jour via ARC Prize 2026

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.