DeepSeek-R1 : amélioration des capacités de raisonnement des grands modèles de langage grâce à l’apprentissage par renforcement

(arxiv.org)

3 points par GN⁺ 2025-01-26 | 1 commentaires | Partager sur WhatsApp

DeepSeek-R1 : renforcer les capacités de raisonnement des LLM
- Présentation des modèles de raisonnement de première génération DeepSeek-R1-Zero et DeepSeek-R1
- DeepSeek-R1-Zero a été entraîné via un apprentissage par renforcement à grande échelle et montre d’excellentes capacités de raisonnement, même sans ajustement fin supervisé
- Il se heurte toutefois à des défis tels que des problèmes de lisibilité et le mélange de langues
- Pour résoudre ces problèmes et améliorer les performances de raisonnement, DeepSeek-R1 est introduit avec un entraînement en plusieurs étapes et l’utilisation de données initiales avant l’apprentissage par renforcement
- DeepSeek-R1 atteint des performances comparables à OpenAI-o1-1217
- Afin de soutenir la communauté de recherche, DeepSeek-R1-Zero, DeepSeek-R1 ainsi que 6 modèles denses distillés basés sur Qwen et Llama (1.5B, 7B, 8B, 14B, 32B, 70B) sont proposés en open source
Sujet et citation
- Sujet : calcul et langage (cs.CL) ; intelligence artificielle (cs.AI) ; apprentissage automatique (cs.LG)
- Citation : arXiv:2501.12948 [cs.CL]
Historique de soumission
- Soumis par : Wenfeng Liang
- Date de soumission : 22 janvier 2025
Accès
- L’article est accessible dans différents formats, notamment PDF, HTML et source TeX
Références et outils de citation
- Diverses références et outils de citation sont fournis
Code, données, médias
- Code et données associés fournis
Informations sur arXivLabs
- Explications et informations de support concernant arXivLabs

1 commentaires

GN⁺ 2025-01-26

Avis Hacker News

L’article de DeepSeek V3 est considéré comme une lecture préalable indispensable
- La combinaison R1 + Sonnet est supérieure aux autres combinaisons
- Plusieurs études de reproduction indépendantes sont en cours dans différents endroits
- La distillation de R1 est très facile, donc elle se produira souvent
- DeepSeek-R1 provoque un fort retentissement dans la Silicon Valley
Après avoir essayé le modèle r1-14b d’Ollama, le fait de voir le modèle tester diverses approches en temps réel et choisir des alternatives rappelle le comportement humain
DeepSeek V3 est arrivé au bon moment, au moment où Claude Sonnet rencontrait des problèmes
- Le prix de DeepSeek est très bas, ce qui constitue un grand avantage
- Passage complet à DeepSeek dans Aider et Cursor
La fonction de chat de DeepSeek est plus facile à utiliser que ChatGPT Pro
- On peut lire le processus de réflexion du modèle, ce qui facilite le débogage
Surprise de voir que le processus de réflexion du modèle GPT-O1 se déroule à l’intérieur même du modèle
- Curiosité de savoir si OpenAI publiera le processus de réflexion de O1
Non seulement les performances de DeepSeek R1 sont impressionnantes, mais les petits modèles distillés le sont aussi
- Le modèle distillé 7b basé sur Qwen est également excellent
- Le modèle distillé 32b est utilisé comme modèle par défaut sur un serveur domestique
Larry Ellison et Masayoshi Son visent l’immortalité grâce à l’ASI
- Ils engagent des investissements massifs pour développer l’ASI
Sur arXiv, plus de 100 auteurs publient un article sous un nom d’équipe
- Cela contribue à renforcer le travail d’équipe et le moral

DeepSeek-R1 : amélioration des capacités de raisonnement des grands modèles de langage grâce à l’apprentissage par renforcement

DeepSeek-R1 : renforcer les capacités de raisonnement des LLM

Sujet et citation

Historique de soumission

Accès

Références et outils de citation

Code, données, médias

Informations sur arXivLabs

À lire aussi

1 commentaires

Avis Hacker News