Killed by LLM

xguru · 2025-01-08T09:33:01+09:00

Répertorie les benchmarks devenus inutiles avec la progression de l’IA (ils ne peuvent plus être mesurés par les derniers modèles) Bien qu’encore utiles comme benchmark, ils n’apportent pas de contribution significative à la question « L’IA peut-elle faire X ? » 2024 : ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval 2023 : GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande 2022 : BIG-Bench 2019 : SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD 2018 : SWAG

(r0bk.github.io)

7 points par xguru 2025-01-08 | 3 commentaires | Partager sur WhatsApp

Répertorie les benchmarks devenus inutiles avec la progression de l’IA (ils ne peuvent plus être mesurés par les derniers modèles)
- Bien qu’encore utiles comme benchmark, ils n’apportent pas de contribution significative à la question « L’IA peut-elle faire X ? »
2024 : ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval
2023 : GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande
2022 : BIG-Bench
2019 : SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD
2018 : SWAG

3 commentaires

kandk 2025-01-08

SQuAD disparaît aussi ?

nutella 2025-01-08

Ça me rappelle Killed by Google.

xguru 2025-01-08

Il y a encore des avis partagés sur certains benchmarks, mais c’est intéressant. https://news.ycombinator.com/item?id=42606231

Killed by LLM

À lire aussi

3 commentaires