DeepSeek V3 a affiché de mauvaises performances sur un benchmark qui teste le surapprentissage

(github.com/cpldcpu)

2 points par jhj0517 2024-12-31 | 2 commentaires | Partager sur WhatsApp

L’émergence de DeepSeek V3, un modèle open source qui surpasse les LLM propriétaires

Récemment, Deepseek (une entreprise d’IA chinoise) a dévoilé DeepSeek V3, un modèle open source impressionnant qui dépasse GPT-4o 0513 sur certains benchmarks LLM comme MMLU (anglais), Human-Eval-Mul (code) et AIME 2024 (mathématiques)
Comme il s’agit d’un résultat qui dépasse des LLM propriétaires existants (closed source) comme GPT d’OpenAI ou Claude d’Anthropic, cela suscite beaucoup d’attention

De mauvaises performances sur MisguidedAttention, un benchmark qui teste le surapprentissage

MisguidedAttention est un benchmark qui vérifie si un LLM est surappris (overfitting) sur certains benchmarks
MisguidedAttention teste le surapprentissage des LLM avec des questions légèrement modifiées à partir de questions de benchmarks existants
Par exemple, un benchmark classique pose le « dilemme du tramway » avec une question du type « Un train hors de contrôle roule sur les rails. Sur les différentes voies, 5 personnes et 1 personne sont attachées. Si vous actionnez le levier, les 5 personnes survivront mais 1 mourra ; si vous ne faites rien, les 5 mourront. Tirerez-vous le levier ? », tandis que MisguidedAttention le transforme en « Sur les différentes voies ferrées se trouvent 5 cadavres et 1 personne vivante attachée. » pour poser un « non-dilemme du tramway » et vérifier si le LLM fournit une réponse claire
DeepSeek V3 a obtenu un score de 0,22 sur MisguidedAttention, inférieur aux 0,45 de claude-3.5-sonnet-new et 0,46 de gpt4-32k, deux LLM propriétaires

DeepSeek V3 est un modèle open source

Il reste toutefois au-dessus d’un autre LLM propriétaire, gemini-pro-1.5, qui a obtenu 0,21
Parmi les modèles open source, le modèle fine-tuné basé sur llama, ‘hermes-3-llama-3.1-405’, a obtenu le meilleur score avec 0,27, ce qui n’est pas un écart important par rapport aux 0,22 de DeepSeek V3
Même s’il a reçu un score faible sur un benchmark testant le surapprentissage, certains estiment qu’il conserve une grande importance en tant que modèle open source

2 commentaires

dohyun682 2024-12-31

Comme il a été développé en Chine, il ne répondait pas correctement aux sujets sensibles en Chine.

jhj0517 2024-12-31

On dirait que tous les services chinois ont cette tendance. Indépendamment de ce qui est juste ou non, ils semblent simplement se méfier dès que des sujets liés apparaissent.

DeepSeek V3 a affiché de mauvaises performances sur un benchmark qui teste le surapprentissage

L’émergence de DeepSeek V3, un modèle open source qui surpasse les LLM propriétaires

De mauvaises performances sur MisguidedAttention, un benchmark qui teste le surapprentissage

DeepSeek V3 est un modèle open source

À lire aussi

2 commentaires