3 points par GN⁺ 2024-12-21 | 1 commentaires | Partager sur WhatsApp
  • Le système o3 d’OpenAI établit un nouveau record sur le jeu de données public ARC-AGI-1
    • Semi-Private Evaluation : 75,7 % en mode haute efficacité
    • Mode à coût élevé (172 fois plus de calculs) : 87,5 %
  • Une avancée majeure qui démontre une nouvelle capacité de traitement adaptatif des tâches, au-delà des limites des modèles de la famille GPT
  • GPT-3 (2020) 0 % → GPT-4o (2024) 5 % → o3 progresse jusqu’à 75,7 %
  • Les résultats sur ARC-AGI-1 offrent une nouvelle intuition sur l’amélioration des capacités de l’IA

ARC Prize et l’avenir de la recherche sur l’AGI

  • ARC Prize vise à servir de cap pour la recherche sur l’AGI
  • Lancement prévu d’ARC-AGI-2 en 2025 :
    • Composé de problèmes faciles pour les humains mais difficiles pour l’IA
    • Objectif : développer de nouvelles solutions open source à haute efficacité
  • La performance d’o3 souligne la nécessité de concevoir de nouveaux benchmarks AGI

Résultats du test ARC-AGI d’OpenAI o3

Jeu de données de test et méthode

  • Semi-Private Eval : 100 tâches non publiques utilisées pour éviter le surapprentissage
  • Public Eval : 400 tâches publiques
  • Tests menés avec deux réglages de calcul : haute efficacité (6 échantillons) et basse efficacité (1024 échantillons)

Principaux résultats (haute efficacité vs basse efficacité)

  • Semi-Private Eval :
    • Haute efficacité : 75,7 % / coût de 20 $ / 1,3 minute par tâche
    • Basse efficacité : 87,5 % / 13,8 minutes par tâche
  • Public Eval :
    • Haute efficacité : 82,8 % / coût de 17 $
    • Basse efficacité : 91,5 %

Relation entre efficacité et performance

  • Le score en haute efficacité prend la première place sur ARC-AGI-Pub dans la limite de coût (moins de 10 000 $)
  • Le score en basse efficacité suggère que les performances progressent avec l’augmentation du calcul, mais à un coût élevé
  • o3 n’a pas obtenu ces résultats par une simple hausse de la puissance de calcul. Il s’agit d’une amélioration fondamentale de la capacité d’adaptation de l’IA

Discussion autour de l’AGI

Différence entre ARC-AGI et AGI

  • ARC-AGI est un outil de recherche servant à évaluer la capacité de généralisation de l’IA
  • o3 a obtenu d’excellents résultats sur ARC-AGI, mais cela reste insuffisant pour le considérer comme une AGI
    • Il échoue encore sur certaines tâches faciles
    • Son score pourrait tomber sous les 30 % sur ARC-AGI-2 à l’avenir

Principaux éléments différenciants d’o3

  • Par rapport aux modèles GPT existants, amélioration de la capacité à traiter et à adapter de nouvelles tâches
  • Introduction d’une méthode de recherche et d’exécution de programmes en langage naturel :
    • Pendant le test, il explore un « processus de raisonnement » (Chain of Thought) pour résoudre les tâches
    • Une approche proche de la recherche arborescente de Monte-Carlo
    • Les programmes prennent la forme d’instructions en langage naturel générées puis exécutées

Comparaison avec les modèles GPT existants

  • Les GPT existants fonctionnaient selon une logique « stocker → récupérer → appliquer »
  • Leur limite était un manque d’adaptabilité face à de nouvelles tâches
  • o3 est capable de recombiner des fonctions existantes pour s’adapter à de nouvelles tâches

Orientations futures de la recherche

Analyse open source d’o3

  • ARC Prize vise à développer des solutions open source à haute efficacité
  • Publication des données de test d’o3 et des problèmes non résolus :
    • La communauté est invitée à analyser les caractéristiques des tâches non résolues
    • Les discussions sont possibles sur le canal Discord et sur GitHub

Benchmark de nouvelle génération

  • Le développement d’ARC-AGI-2 est en cours :
    • Sortie prévue à la fin du premier trimestre 2025
    • Une conception entièrement nouvelle, distincte du format ARC-AGI existant
  • La fondation ARC Prize prévoit de continuer à développer de nouveaux benchmarks pour la recherche sur l’AGI

Conclusion

  • OpenAI o3 constitue une avancée marquante qui prouve une capacité d’adaptation de l’IA au-delà des limites de la famille GPT
  • L’introduction d’une exploration de programmes en langage naturel pilotée par les LLM ouvre un nouveau champ
  • À l’avenir, des recherches seront nécessaires pour équilibrer efficacité et performance, ainsi qu’une collaboration via l’open source

1 commentaires

 
GN⁺ 2024-12-21
Avis sur Hacker News
  • L’efficacité devient cruciale. L’expression ARC-AGI-TUNED suggère que d’importantes ressources de calcul ont été mobilisées. Comparé au coût pour un humain de résoudre les puzzles ARC-AGI, le coût actuel du raisonnement de niveau humain avec la puissance de calcul reste considérablement élevé.

  • Le décodage de motifs en langage naturel est plus complexe que les puzzles. Si une IA est entraînée à résoudre des puzzles, il est difficile de générer des données d’entraînement portant sur des médias externes. Le fait d’inférer la réponse à des motifs de blocs avec un minimum d’entraînement supplémentaire est impressionnant.

  • L’exercice de programmation d’o3-mini n’était pas si difficile. La tâche a été donnée à Claude 3.5 Sonnet, qui l’a réussie du premier coup.

  • L’ARC de François Chollet est un benchmark LLM très intéressant et stimulant. Beaucoup ont critiqué ARC en affirmant qu’il ne représentait pas un véritable raisonnement, mais cela montre que ce qu’ARC mesure est important pour le raisonnement.

  • La performance humaine est de 85 %, et o3 high atteint 87,5 %. Cela signifie qu’il existe un algorithme capable d’atteindre des performances de niveau humain. Cela explique pourquoi certains ont le sentiment que l’AGI se rapproche.

  • o3 inclut des aspects essentiels de l’AGI. Résoudre les problèmes ARC nécessite d’utiliser plusieurs connaissances clés et de mobiliser le bon niveau d’abstraction.

  • Le coût d’exécution du modèle o3 est très élevé. Toutefois, à l’échelle d’un État, cela peut représenter une avancée importante même si ce n’est pas économique. Si une IA dotée d’une intelligence comparable à celle de l’humain peut être fournie à la demande, son impact pourrait se faire sentir plus vite que prévu.

  • ARC-AGI ne signifie pas que l’AGI a été atteinte. o3 échoue encore sur des tâches faciles. Le benchmark ARC-AGI-2 restera probablement un défi pour o3.

  • Ni ARC ni aucun autre benchmark ne doivent être confondus avec une véritable intelligence générale. L’intelligence générale ne pourra probablement être identifiée qu’avec le recul considérable du temps.