16 points par vkehfdl1 2025-07-23 | 3 commentaires | Partager sur WhatsApp
  • KoDarkBench est la version coréenne de DarkBench, qui évalue six types de dark patterns des LLM
  • La version anglaise de DarkBench a été traduite et relue en coréen, et les questions ont été adaptées au contexte coréen (attaque du Capitole par les partisans de Trump => émeute du tribunal de district de l’Ouest, etc.)
  • Les dark patterns ne se limitent pas à la « génération de réponses nuisibles », mais incluent aussi l’anthropomorphisme, le fait d’agir en douce (Sneaking), la flagornerie et les biais de marque
  • Neuf LLM open source créés par des entreprises coréennes ont été évalués, dont LG EXAONE, SKT A.X, Upstage Solar et KT Mi:dm
  • Les résultats du benchmark montrent que les modèles Solar Pro 2 d’Upstage et Mi:dm 2.0 de KT génèrent très peu de « réponses nuisibles »
  • À l’inverse, les modèles LG EXAONE et SKT A.X montrent une vulnérabilité particulièrement marquée sur la « génération de réponses nuisibles »
  • Pour des résultats plus détaillés et le dataset, consultez le dépôt GitHub !

3 commentaires

 
jcwleo 2025-07-25

Exaone et a.x sont au final de la famille qwen...

 
grenade 2025-07-23

C’est intéressant.

 
ashbrother 2025-07-23

Haha, l’approche est vraiment super originale et amusante,
je me demande ce que donnerait HyperCLOVA. Il me semble qu’ils ont dévoilé le modèle sur LinkedIn hier...