OpenAI o3 atteint un score record sur ARC-AGI-PUB

(arcprize.org)

3 points par GN⁺ 2024-12-21 | 1 commentaires | Partager sur WhatsApp

Le système o3 d’OpenAI établit un nouveau record sur le jeu de données public ARC-AGI-1
- Semi-Private Evaluation : 75,7 % en mode haute efficacité
- Mode à coût élevé (172 fois plus de calculs) : 87,5 %
Une avancée majeure qui démontre une nouvelle capacité de traitement adaptatif des tâches, au-delà des limites des modèles de la famille GPT
GPT-3 (2020) 0 % → GPT-4o (2024) 5 % → o3 progresse jusqu’à 75,7 %
Les résultats sur ARC-AGI-1 offrent une nouvelle intuition sur l’amélioration des capacités de l’IA

ARC Prize et l’avenir de la recherche sur l’AGI

ARC Prize vise à servir de cap pour la recherche sur l’AGI
Lancement prévu d’ARC-AGI-2 en 2025 :
- Composé de problèmes faciles pour les humains mais difficiles pour l’IA
- Objectif : développer de nouvelles solutions open source à haute efficacité
La performance d’o3 souligne la nécessité de concevoir de nouveaux benchmarks AGI

Résultats du test ARC-AGI d’OpenAI o3

Jeu de données de test et méthode

Semi-Private Eval : 100 tâches non publiques utilisées pour éviter le surapprentissage
Public Eval : 400 tâches publiques
Tests menés avec deux réglages de calcul : haute efficacité (6 échantillons) et basse efficacité (1024 échantillons)

Principaux résultats (haute efficacité vs basse efficacité)

Semi-Private Eval :
- Haute efficacité : 75,7 % / coût de 20 $ / 1,3 minute par tâche
- Basse efficacité : 87,5 % / 13,8 minutes par tâche
Public Eval :
- Haute efficacité : 82,8 % / coût de 17 $
- Basse efficacité : 91,5 %

Relation entre efficacité et performance

Le score en haute efficacité prend la première place sur ARC-AGI-Pub dans la limite de coût (moins de 10 000 $)
Le score en basse efficacité suggère que les performances progressent avec l’augmentation du calcul, mais à un coût élevé
o3 n’a pas obtenu ces résultats par une simple hausse de la puissance de calcul. Il s’agit d’une amélioration fondamentale de la capacité d’adaptation de l’IA

Discussion autour de l’AGI

Différence entre ARC-AGI et AGI

ARC-AGI est un outil de recherche servant à évaluer la capacité de généralisation de l’IA
o3 a obtenu d’excellents résultats sur ARC-AGI, mais cela reste insuffisant pour le considérer comme une AGI
- Il échoue encore sur certaines tâches faciles
- Son score pourrait tomber sous les 30 % sur ARC-AGI-2 à l’avenir

Principaux éléments différenciants d’o3

Par rapport aux modèles GPT existants, amélioration de la capacité à traiter et à adapter de nouvelles tâches
Introduction d’une méthode de recherche et d’exécution de programmes en langage naturel :
- Pendant le test, il explore un « processus de raisonnement » (Chain of Thought) pour résoudre les tâches
- Une approche proche de la recherche arborescente de Monte-Carlo
- Les programmes prennent la forme d’instructions en langage naturel générées puis exécutées

Comparaison avec les modèles GPT existants

Les GPT existants fonctionnaient selon une logique « stocker → récupérer → appliquer »
Leur limite était un manque d’adaptabilité face à de nouvelles tâches
o3 est capable de recombiner des fonctions existantes pour s’adapter à de nouvelles tâches

Orientations futures de la recherche

Analyse open source d’o3

ARC Prize vise à développer des solutions open source à haute efficacité
Publication des données de test d’o3 et des problèmes non résolus :
- La communauté est invitée à analyser les caractéristiques des tâches non résolues
- Les discussions sont possibles sur le canal Discord et sur GitHub

Benchmark de nouvelle génération

Le développement d’ARC-AGI-2 est en cours :
- Sortie prévue à la fin du premier trimestre 2025
- Une conception entièrement nouvelle, distincte du format ARC-AGI existant
La fondation ARC Prize prévoit de continuer à développer de nouveaux benchmarks pour la recherche sur l’AGI

Conclusion

OpenAI o3 constitue une avancée marquante qui prouve une capacité d’adaptation de l’IA au-delà des limites de la famille GPT
L’introduction d’une exploration de programmes en langage naturel pilotée par les LLM ouvre un nouveau champ
À l’avenir, des recherches seront nécessaires pour équilibrer efficacité et performance, ainsi qu’une collaboration via l’open source

1 commentaires

GN⁺ 2024-12-21

Avis sur Hacker News

L’efficacité devient cruciale. L’expression ARC-AGI-TUNED suggère que d’importantes ressources de calcul ont été mobilisées. Comparé au coût pour un humain de résoudre les puzzles ARC-AGI, le coût actuel du raisonnement de niveau humain avec la puissance de calcul reste considérablement élevé.
Le décodage de motifs en langage naturel est plus complexe que les puzzles. Si une IA est entraînée à résoudre des puzzles, il est difficile de générer des données d’entraînement portant sur des médias externes. Le fait d’inférer la réponse à des motifs de blocs avec un minimum d’entraînement supplémentaire est impressionnant.
L’exercice de programmation d’o3-mini n’était pas si difficile. La tâche a été donnée à Claude 3.5 Sonnet, qui l’a réussie du premier coup.
L’ARC de François Chollet est un benchmark LLM très intéressant et stimulant. Beaucoup ont critiqué ARC en affirmant qu’il ne représentait pas un véritable raisonnement, mais cela montre que ce qu’ARC mesure est important pour le raisonnement.
La performance humaine est de 85 %, et o3 high atteint 87,5 %. Cela signifie qu’il existe un algorithme capable d’atteindre des performances de niveau humain. Cela explique pourquoi certains ont le sentiment que l’AGI se rapproche.
o3 inclut des aspects essentiels de l’AGI. Résoudre les problèmes ARC nécessite d’utiliser plusieurs connaissances clés et de mobiliser le bon niveau d’abstraction.
Le coût d’exécution du modèle o3 est très élevé. Toutefois, à l’échelle d’un État, cela peut représenter une avancée importante même si ce n’est pas économique. Si une IA dotée d’une intelligence comparable à celle de l’humain peut être fournie à la demande, son impact pourrait se faire sentir plus vite que prévu.
ARC-AGI ne signifie pas que l’AGI a été atteinte. o3 échoue encore sur des tâches faciles. Le benchmark ARC-AGI-2 restera probablement un défi pour o3.
Ni ARC ni aucun autre benchmark ne doivent être confondus avec une véritable intelligence générale. L’intelligence générale ne pourra probablement être identifiée qu’avec le recul considérable du temps.

OpenAI o3 atteint un score record sur ARC-AGI-PUB

ARC Prize et l’avenir de la recherche sur l’AGI

Résultats du test ARC-AGI d’OpenAI o3

Jeu de données de test et méthode

Principaux résultats (haute efficacité vs basse efficacité)

Relation entre efficacité et performance

Discussion autour de l’AGI

Différence entre ARC-AGI et AGI

Principaux éléments différenciants d’o3

Comparaison avec les modèles GPT existants

Orientations futures de la recherche

Analyse open source d’o3

Benchmark de nouvelle génération

Conclusion

À lire aussi

1 commentaires

Avis sur Hacker News