Killed by LLM
(r0bk.github.io)- Répertorie les benchmarks devenus inutiles avec la progression de l’IA (ils ne peuvent plus être mesurés par les derniers modèles)
- Bien qu’encore utiles comme benchmark, ils n’apportent pas de contribution significative à la question « L’IA peut-elle faire X ? »
- 2024 : ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval
- 2023 : GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande
- 2022 : BIG-Bench
- 2019 : SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD
- 2018 : SWAG
3 commentaires
SQuAD disparaît aussi ?
Ça me rappelle Killed by Google.
Il y a encore des avis partagés sur certains benchmarks, mais c’est intéressant. https://news.ycombinator.com/item?id=42606231