-
DeepSeek-R1 : renforcer les capacités de raisonnement des LLM
- Présentation des modèles de raisonnement de première génération DeepSeek-R1-Zero et DeepSeek-R1
- DeepSeek-R1-Zero a été entraîné via un apprentissage par renforcement à grande échelle et montre d’excellentes capacités de raisonnement, même sans ajustement fin supervisé
- Il se heurte toutefois à des défis tels que des problèmes de lisibilité et le mélange de langues
- Pour résoudre ces problèmes et améliorer les performances de raisonnement, DeepSeek-R1 est introduit avec un entraînement en plusieurs étapes et l’utilisation de données initiales avant l’apprentissage par renforcement
- DeepSeek-R1 atteint des performances comparables à OpenAI-o1-1217
- Afin de soutenir la communauté de recherche, DeepSeek-R1-Zero, DeepSeek-R1 ainsi que 6 modèles denses distillés basés sur Qwen et Llama (1.5B, 7B, 8B, 14B, 32B, 70B) sont proposés en open source
-
Sujet et citation
- Sujet : calcul et langage (cs.CL) ; intelligence artificielle (cs.AI) ; apprentissage automatique (cs.LG)
- Citation : arXiv:2501.12948 [cs.CL]
-
Historique de soumission
- Soumis par : Wenfeng Liang
- Date de soumission : 22 janvier 2025
-
Accès
- L’article est accessible dans différents formats, notamment PDF, HTML et source TeX
-
Références et outils de citation
- Diverses références et outils de citation sont fournis
-
Code, données, médias
- Code et données associés fournis
-
Informations sur arXivLabs
- Explications et informations de support concernant arXivLabs
1 commentaires
Avis Hacker News
L’article de DeepSeek V3 est considéré comme une lecture préalable indispensable
Après avoir essayé le modèle
r1-14bd’Ollama, le fait de voir le modèle tester diverses approches en temps réel et choisir des alternatives rappelle le comportement humainDeepSeek V3 est arrivé au bon moment, au moment où Claude Sonnet rencontrait des problèmes
La fonction de chat de DeepSeek est plus facile à utiliser que ChatGPT Pro
Surprise de voir que le processus de réflexion du modèle GPT-O1 se déroule à l’intérieur même du modèle
Non seulement les performances de DeepSeek R1 sont impressionnantes, mais les petits modèles distillés le sont aussi
Larry Ellison et Masayoshi Son visent l’immortalité grâce à l’ASI
Sur arXiv, plus de 100 auteurs publient un article sous un nom d’équipe