1 points par GN⁺ 2026-03-27 | 1 commentaires | Partager sur WhatsApp
  • ARC-AGI-3 est le premier benchmark de raisonnement interactif conçu pour mesurer l’intelligence de niveau humain des agents IA, et évalue leur capacité à explorer un environnement et à apprendre de manière adaptative
  • Toutes les tâches sont constituées d’environnements résolubles par des humains et mesurent l’efficacité de l’acquisition de compétences au fil du temps ainsi que la capacité de planification à long terme
  • Il fournit des objectifs clairs et du feedback sans connaissance préalable, tout en conservant une structure de tâches inédite qui empêche les approches fondées sur la mémorisation
  • Grâce à la visualisation des replays, à un toolkit développeur et à une UI d’évaluation, il est possible de vérifier de façon transparente les actions et le processus de raisonnement des agents
  • Le jeu public de jeux, la documentation, le SDK et les canaux communautaires facilitent la participation à la compétition ARC Prize 2026 ainsi que les tests d’agents

Présentation d’ARC-AGI-3

  • ARC-AGI-3 a été conçu comme un benchmark de raisonnement interactif visant à mesurer l’intelligence de niveau humain des agents IA
    • Il évalue la capacité des agents à explorer de nouveaux environnements, à identifier leurs objectifs, à construire un modèle du monde adaptable et à apprendre en continu
    • Un score de 100 % signifie que l’IA résout tous les jeux avec une efficacité équivalente à celle d’un humain
    • Il ne s’agit pas de résoudre des puzzles statiques, mais d’apprendre par l’expérience dans l’environnement et d’ajuster sa stratégie
    • Il faut effectuer la perception, la sélection d’actions et l’adaptation stratégique sans instructions en langage naturel

Fonctionnalités principales

  • Comprend des runs rejouables, un toolkit développeur pour l’intégration d’agents et une UI d’évaluation transparente
  • Replays et évaluation

    • Les actions de l’agent peuvent être visualisées sous forme de replay, ce qui permet de suivre dans l’ordre chronologique la prise de décision, les actions et le processus de raisonnement
    • Un exemple de replay est fourni
  • Outils et UI

    • Le toolkit ARC-AGI-3 permet d’intégrer des agents, et l’UI interactive permet les tests et les itérations
    • Exécution directe possible via le lien Play and test
  • Documentation

    • Fournit la documentation nécessaire à la création d’agents, notamment sur la configuration des environnements, l’usage de l’API et le guide d’intégration
    • Accessible sur la page de documentation

Ressources associées et communauté

  • Public Game Set : ensemble public de jeux
  • Docs + SDK : documentation développeur et SDK
  • ARC Prize 2026 Track : track de la compétition 2026
  • Technical Paper : rapport technique
  • Les participants peuvent choisir différents environnements de jeu (ar25, bp35, ls20, etc.) pour tester leurs propres agents
  • Les canaux communautaires officiels incluent Discord, Twitter, YouTube et GitHub
  • Il est possible de suivre les annonces de la compétition officielle et les mises à jour via ARC Prize 2026

1 commentaires

 
GN⁺ 2026-03-27
Commentaires Hacker News
  • En regardant le tweet de scaling01, plusieurs problèmes dans la méthode d’évaluation d’ARC-AGI-3 sont soulignés
    Le repère humain est défini comme « le deuxième humain le plus rapide », et le score n’est pas un simple taux de réussite mais est calculé à partir du carré de l’efficacité
    Autrement dit, si un humain résout un problème en 10 étapes et qu’un modèle le résout en 100 étapes, il n’obtient qu’un score de 1 %
    De plus, 100 % signifie seulement que tous les niveaux ont été résolus, pas que l’on a atteint un niveau humain
    Cette conception fait qu’un modèle ne peut pas obtenir 100 %, même s’il est au niveau humain
    Le prompt est simple, et le modèle ne peut pas utiliser plus de 5 fois le nombre d’étapes d’un humain
    Le fait de donner davantage de poids aux niveaux avancés viserait aussi à détecter un apprentissage continu

    • Plutôt qu’un problème, ces points donnent presque l’impression d’être la bonne approche. Cela améliore même mon opinion sur ARC-AGI
    • Le fait que le prompt soit simple est quelque chose à régler dans la compétition Kaggle. En branchant un LLM récent, on ferait bien mieux que des participants limités par le GPU
    • La définition du repère humain ne peut de toute façon être qu’arbitraire. Après tout, « l’humain moyen » est soit illettré, soit déjà mort
    • En réalité, cette conception est raisonnable. Il est facile d’être dans les 80 % supérieurs à la plupart des gens, et même au-dessus de 95 % si l’on a simplement la motivation
    • Au contraire, cette approche rend le test bien plus difficile pour les LLM, ce qui fait paraître les scores actuels encore plus impressionnants
  • À propos de l’idée que « tant qu’il existe un écart entre l’apprentissage de l’IA et celui des humains, ce n’est pas de l’AGI », cela rappelle une analogie de l’époque de Deep Blue dans les années 90
    Dire qu’un avion ne vole pas parce qu’il ne bat pas des ailes comme un oiseau n’a pas de sens ; de la même façon, apprendre autrement que les humains n’invalide pas l’intelligence

    • Cet écart n’est pas qu’une question philosophique, c’est aussi une question d’impact économique. Si cet écart tombe à zéro, le travail intellectuel humain sera entièrement remplacé. Même sans AGI complète, l’économie pourrait s’effondrer
    • Cela rappelle le texte de Dijkstra (EWD867) et son analogie selon laquelle demander si un ordinateur peut penser est aussi vide de sens que demander si un sous-marin peut nager
    • Le « G » d’AGI signifie General, mais les humains eux-mêmes ne sont pas généraux. Un avion n’est pas plus polyvalent qu’un oiseau, mais il étend la mobilité
    • Pour moi, le débat sur l’AGI est déjà clos. Les outils actuels sont déjà suffisamment utiles, et on voit même des signes d’ASI (intelligence auto-améliorante). Le concours ARC-AGI n’est qu’une expérience intéressante pour mesurer où on en est
    • L’intelligence n’existe pas uniquement sous une forme humaine. Ce qui compte, c’est l’utilité du résultat. En revanche, la question de la conscience est morale : comme on ne peut pas la prouver, il faudrait partir du principe qu’elle existe
  • Je pense que l’approche d’ARC est une excellente méthode d’évaluation de l’AGI
    Sa structure est simple : on donne les mêmes entrées aux humains et à l’IA, puis on compare les résultats
    Le mot clé est « General », et ARC cherche justement à mesurer cette généralité
    La question de savoir si l’IA est utile ou non est secondaire. Ce test est la tentative la plus convaincante à ce jour
    D’ailleurs, lorsqu’on pose à une IA des questions relevant de son propre domaine d’expertise, on voit souvent qu’elle se trompe. Nous avons tendance à confondre savoir et intelligence

    • Je pense que le terme « General » est erroné. Les humains non plus ne sont pas généraux et ont des capacités très inégales. En langage, les LLM ont déjà dépassé les humains
    • Ce test est un jeu qui nécessite une perception visuelle, ce qui revient à faire passer un examen de conduite à un aveugle. Si l’on convertissait le jeu en texte, les LLM pourraient faire mieux que les humains
    • Les précédents ARC-AGI ressemblaient à des tests de QI, mais cette version est trop facile. Si les LLM échouent, c’est peut-être surtout à cause d’un décalage de format d’entrée. Avec un simple entraînement sur des jeux textuels, cela pourrait être résolu rapidement
  • En voyant ce genre de benchmark, une question vient à l’esprit : qu’est-ce qui empêcherait OpenAI d’embaucher des gens pour fabriquer le dataset ?

    • Mais la vraie question n’est pas là ; c’est plutôt de savoir si le modèle peut généraliser. ARC-AGI semble conçu pour évaluer la résolution de problèmes visuels à long contexte et l’agency
  • Après avoir essayé plusieurs niveaux moi-même, j’ai réalisé avec certitude que je ne suis pas une AGI

    • Il faudrait plutôt parler de NGI, pour Natural General Intelligence
    • Cela dit, l’IA a accès à tout Internet, n’a pas de limite de temps et n’a pas honte de soumettre d’innombrables mauvaises réponses. Ces conditions n’ont rien à voir avec un test humain
    • J’ai aussi vu passer la blague : « merci d’avoir baissé le seuil de l’AGI »
  • Je suis un peu sceptique
    Quelqu’un habitué aux jeux réussira probablement à 100 %, mais une grand-mère qui utilise un ordinateur pour la première fois échouera complètement. Pour les LLM, c’est pareil
    Au final, des modèles entraînés sur ce type de données de jeu s’adapteront facilement, et cela ne sera pas de l’AGI

    • Mais les humains aussi apprennent à devenir bons à un jeu ; tant que l’apprentissage en ligne n’est pas autorisé, ce test ne reflète pas l’apprentissage humain
    • Moi aussi, en tant que gamer depuis 40 ans, j’ai trouvé ces puzzles bien trop faciles. Une fois la règle comprise, c’était immédiat. Ce type de problème est dans mon domaine d’expertise
  • J’ai vu ce projet en direct lors d’un événement de lancement YC, et cela m’a inspiré pour la première fois depuis longtemps
    J’ai aussi entendu qu’en expérimentant ARC2, quelqu’un avait trouvé un moyen de faire bouger un bras robotique plus efficacement
    Le simple fait d’améliorer le score a donc débouché sur une véritable innovation en robotique
    ARC-4, 5 et 6 sont aussi prévus, et l’objectif serait à terme des modèles capables de résoudre des problèmes en zéro contexte

    • Mais ce type d’extension peut aussi finir par ressembler à un déplacement des buts (goalpost moving)
  • Je ne sais pas si ARC-AGI a un lien direct avec l’AGI
    Au fond, cela ne mesure que les performances des LLM sur un type particulier de jeu
    Il existe déjà beaucoup de jeux où les ordinateurs dominent largement les humains, que ces derniers soient bons ou non à celui-ci
    La vraie question est donc de savoir si ces jeux sont représentatifs de l’intelligence

    • Le créateur d’ARC-AGI, Chollet, définit l’intelligence comme la capacité à bien fonctionner dans des situations inédites. ARC-AGI mesure précisément cela
    • Mais « AGI » ressemble surtout à un terme marketing, et ce type de benchmark sert davantage à la promotion qu’à l’efficacité réelle au travail
  • J’ai été l’un des testeurs humains de ce jeu
    J’ai résolu 25 jeux en 90 minutes, et même si les consignes demandaient de minimiser le nombre d’actions, je me suis en pratique concentré sur la vitesse à cause de la prime de rapidité (5 $ par jeu)
    Il est donc probable que les données de référence humaines aient enregistré plus d’actions que nécessaire

  • Ce que je préfère dans le leaderboard ARC-AGI, c’est le graphique performance/coût
    Les progrès récents de l’IA s’accompagnent pour la plupart d’une hausse de la consommation électrique. En fin de compte, plus on consomme d’électricité, meilleurs sont les résultats