7 points par xguru 2025-01-08 | 3 commentaires | Partager sur WhatsApp
  • Répertorie les benchmarks devenus inutiles avec la progression de l’IA (ils ne peuvent plus être mesurés par les derniers modèles)
    • Bien qu’encore utiles comme benchmark, ils n’apportent pas de contribution significative à la question « L’IA peut-elle faire X ? »
  • 2024 : ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval
  • 2023 : GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande
  • 2022 : BIG-Bench
  • 2019 : SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD
  • 2018 : SWAG

3 commentaires

 
kandk 2025-01-08

SQuAD disparaît aussi ?

 
nutella 2025-01-08

Ça me rappelle Killed by Google.

 
xguru 2025-01-08

Il y a encore des avis partagés sur certains benchmarks, mais c’est intéressant. https://news.ycombinator.com/item?id=42606231