Atteindre 50 % de précision sur ARC-AGI avec GPT-4
Qu’est-ce qu’ARC-AGI ?
- ARC-AGI est un jeu de données conçu pour évaluer les capacités générales de raisonnement de l’IA.
- Il se compose de problèmes où il faut déduire une règle de transformation à partir d’exemples d’entrée-sortie sous forme de grilles de cellules colorées.
- La précision moyenne des humains est de 85 % sur l’ensemble d’entraînement, mais l’ensemble de test est bien plus difficile.
Ma méthode
- J’ai utilisé GPT-4 pour générer environ 8 000 programmes Python par problème, puis j’ai sélectionné les programmes qui produisaient la bonne sortie.
- Quelques approches et ajustements supplémentaires ont permis d’améliorer fortement les performances :
- Prompts few-shot : utilisation de prompts qui effectuent un raisonnement étape par étape.
- Correction de code : GPT-4 modifie une partie de l’implémentation à partir du résultat de sortie des exemples.
- Feature engineering : fourniture au modèle d’une meilleure représentation des grilles.
- Prompts spécialisés : utilisation de prompts différents selon que la taille de la grille change ou non.
Effet d’un échantillonnage plus important
- Les performances s’améliorent à mesure que le nombre d’échantillons augmente.
- Par exemple, 1 024 échantillons ont permis d’atteindre 25 % de précision, tandis que 2 048 échantillons ont permis d’atteindre 34 %.
Effet de meilleurs prompts et de la correction de code
- L’amélioration des prompts et l’étape de correction de code sont essentielles pour augmenter la précision.
- Dans la version finale, 50 % de précision ont été atteints.
Limites et prévisions
- Les capacités de perception visuelle et de programmation de GPT-4 sont limitées.
- Davantage d’échantillonnage et de meilleurs prompts sont nécessaires.
- Il est très probable que la prochaine génération de LLM améliore fortement les performances sur ARC-AGI.
L’avis de GN⁺
- Capacités de perception visuelle : les capacités de perception visuelle de GPT-4 étant limitées, un meilleur modèle de perception visuelle est nécessaire.
- Capacités de programmation : GPT-4 commet souvent de simples erreurs en programmation. De meilleurs outils de débogage sont nécessaires pour y remédier.
- Coût de l’échantillonnage : comme un échantillonnage important est nécessaire, le coût peut être élevé. Des méthodes d’échantillonnage plus efficaces sont nécessaires.
- Potentiel futur : il est très probable que la prochaine génération de LLM améliore fortement les performances sur ARC-AGI. Cela pourrait en faire un critère important pour évaluer les capacités générales de raisonnement de l’IA.
- Applications concrètes : des recherches sont nécessaires pour comprendre comment des capacités de résolution de problèmes comme celles d’ARC-AGI pourraient être exploitées dans des applications réelles.
1 commentaires
Avis Hacker News
Cofondateur de l’ARC Prize : la recherche de Ryan est un travail intéressant et novateur sur le « raisonnement des LLM », qui consiste à générer 8000 programmes Python avec GPT-4o, puis à sélectionner le bon programme pour l’appliquer à des entrées de test supplémentaires. Il s’agit de résultats sur l’ensemble d’évaluation public ; ils ne sont pas validés, mais restent prometteurs. Il adresse ses félicitations et ses remerciements à Ryan pour ses efforts.
Critique de l’article : l’article conclut trop vite que « les LLM actuels peuvent déjà assez bien fonctionner sur ARC-AGI », alors même que plusieurs astuces manuelles ont été utilisées pour obtenir ces résultats. Les attaques contre Francois Chollet nuisent à la communauté.
Avis sur GPT-4 : GPT-4 serait une mauvaise AGI, et GPT-1 était déjà une AGI. De même que l’intelligence humaine se développe progressivement, GPT-4 peut être vu comme un petit cerveau spécialisé dans le raisonnement textuel. Affirmer qu’ARC est le critère absolu de l’intelligence générale revient à manquer la vue d’ensemble sur l’intelligence.
Premières tentatives de GPT-4 : GPT-4 a obtenu des résultats « corrects » sur les puzzles, mais a parfois échoué sur les parties logiques. Les éléments visuo-spatiaux sont importants, et un modèle multimodal pourrait être nécessaire. Générer aléatoirement des solutions Python est une approche « non humaine ».
Ce que signifie manipuler les LLM : pour beaucoup, manipuler les LLM afin de leur faire passer des tests d’AGI vide ces tests de leur sens. Mais comprendre quels types de manipulations sont efficaces peut être utile. La plupart des problèmes se ramènent finalement à de la reconnaissance de motifs.
Points clés :
Défauts d’ARC-AGI : ARC-AGI semble présenter des défauts. Ce qui peut être expliqué par l’AGI pourrait aussi s’expliquer par le fait que cela figure déjà dans l’ensemble d’entraînement.
Système 2 et AGI : générer et évaluer de nombreux programmes pourrait jouer le rôle du système 2 dans une AGI. Cela ressemble à la manière dont les humains réfléchissent intelligemment.
Importance de la compréhension physique : ce défi repose sur la compréhension physique, la perception spatiale et les frontières entre objets. Il est important d’identifier les objets et de cartographier les transformations ou les relations. On peut résoudre cela en combinant recherche de programmes et LLM.
Capacité de planification de GPT-4 : GPT-4 peut produire des plans similaires à ceux décrits dans l’article, avec extraction de caractéristiques, synthèse de programmes et amélioration itérative. Il présente des faiblesses en codage et avec les entrées visuelles.