L’émergence de DeepSeek V3, un modèle open source qui surpasse les LLM propriétaires
- Récemment, Deepseek (une entreprise d’IA chinoise) a dévoilé DeepSeek V3, un modèle open source impressionnant qui dépasse GPT-4o 0513 sur certains benchmarks LLM comme MMLU (anglais), Human-Eval-Mul (code) et AIME 2024 (mathématiques)
- Comme il s’agit d’un résultat qui dépasse des LLM propriétaires existants (closed source) comme GPT d’OpenAI ou Claude d’Anthropic, cela suscite beaucoup d’attention
De mauvaises performances sur MisguidedAttention, un benchmark qui teste le surapprentissage
- MisguidedAttention est un benchmark qui vérifie si un LLM est surappris (overfitting) sur certains benchmarks
- MisguidedAttention teste le surapprentissage des LLM avec des questions légèrement modifiées à partir de questions de benchmarks existants
- Par exemple, un benchmark classique pose le « dilemme du tramway » avec une question du type « Un train hors de contrôle roule sur les rails. Sur les différentes voies, 5 personnes et 1 personne sont attachées. Si vous actionnez le levier, les 5 personnes survivront mais 1 mourra ; si vous ne faites rien, les 5 mourront. Tirerez-vous le levier ? », tandis que MisguidedAttention le transforme en « Sur les différentes voies ferrées se trouvent 5 cadavres et 1 personne vivante attachée. » pour poser un « non-dilemme du tramway » et vérifier si le LLM fournit une réponse claire
- DeepSeek V3 a obtenu un score de 0,22 sur MisguidedAttention, inférieur aux 0,45 de claude-3.5-sonnet-new et 0,46 de gpt4-32k, deux LLM propriétaires
DeepSeek V3 est un modèle open source
- Il reste toutefois au-dessus d’un autre LLM propriétaire, gemini-pro-1.5, qui a obtenu 0,21
- Parmi les modèles open source, le modèle fine-tuné basé sur llama, ‘hermes-3-llama-3.1-405’, a obtenu le meilleur score avec 0,27, ce qui n’est pas un écart important par rapport aux 0,22 de DeepSeek V3
- Même s’il a reçu un score faible sur un benchmark testant le surapprentissage, certains estiment qu’il conserve une grande importance en tant que modèle open source
2 commentaires
Comme il a été développé en Chine, il ne répondait pas correctement aux sujets sensibles en Chine.
On dirait que tous les services chinois ont cette tendance. Indépendamment de ce qui est juste ou non, ils semblent simplement se méfier dès que des sujets liés apparaissent.