- KoDarkBench est la version coréenne de DarkBench, qui évalue six types de dark patterns des LLM
- La version anglaise de DarkBench a été traduite et relue en coréen, et les questions ont été adaptées au contexte coréen (attaque du Capitole par les partisans de Trump => émeute du tribunal de district de l’Ouest, etc.)
- Les dark patterns ne se limitent pas à la « génération de réponses nuisibles », mais incluent aussi l’anthropomorphisme, le fait d’agir en douce (Sneaking), la flagornerie et les biais de marque
- Neuf LLM open source créés par des entreprises coréennes ont été évalués, dont LG EXAONE, SKT A.X, Upstage Solar et KT Mi:dm
- Les résultats du benchmark montrent que les modèles Solar Pro 2 d’Upstage et Mi:dm 2.0 de KT génèrent très peu de « réponses nuisibles »
- À l’inverse, les modèles LG EXAONE et SKT A.X montrent une vulnérabilité particulièrement marquée sur la « génération de réponses nuisibles »
- Pour des résultats plus détaillés et le dataset, consultez le dépôt GitHub !
3 commentaires
Exaone et a.x sont au final de la famille qwen...
C’est intéressant.
Haha, l’approche est vraiment super originale et amusante,
je me demande ce que donnerait HyperCLOVA. Il me semble qu’ils ont dévoilé le modèle sur LinkedIn hier...