Qu'est-ce que DeepSeek-R1 ?
- Le modèle o1 d'OpenAI a été entraîné en utilisant davantage de calcul afin de permettre aux LLMs de mieux effectuer les tâches de raisonnement.
- DeepSeek-R1 affiche des performances comparables, voire supérieures, à celles du modèle o1 d'OpenAI, et apprend à raisonner sans supervision humaine grâce à l'apprentissage par renforcement pur (RL).
- La publication de DeepSeek-R1 soulève plusieurs questions sur la collecte des données, l'entraînement des modèles et les lois de passage à l'échelle.
Comment ont-ils procédé ?
- DeepSeek-R1 est un modèle de raisonnement construit sur la base de DeepSeek-V3, et c'est un modèle Mixture of Experts (MoE) de 671B.
- DeepSeek-R1-Zero a été entraîné uniquement à l'aide de l'apprentissage par renforcement et utilise Group Relative Policy Optimization (GRPO) pour améliorer l'efficacité.
- DeepSeek-R1 améliore la clarté et la lisibilité au stade initial à l'aide de petits exemples, puis génère des réponses cohérentes via des étapes d'apprentissage par renforcement et de raffinement.
Open-R1 : les pièces manquantes
- La publication de DeepSeek-R1 a été d'une grande aide pour la communauté, mais le dataset et le code n'ont pas été rendus publics.
- Le projet Open-R1 vise à reconstruire les données et le pipeline d'entraînement de DeepSeek-R1, et à apporter de la transparence sur la manière dont l'apprentissage par renforcement améliore le raisonnement.
Plan par étapes d'Open-R1
- Reproduire les modèles R1-Distill : extraire un dataset de raisonnement de haute qualité à partir de DeepSeek-R1 et réaliser un apprentissage par distillation
- Répliquer le pipeline d'entraînement purement RL de R1-Zero : construire de grands datasets en mathématiques, logique et code
- Construire le processus d'entraînement par étapes modèle de base → SFT → RL
Comment contribuer
- Il existe plusieurs façons de contribuer au projet Open-R1, comme contribuer au code ou participer aux discussions sur Hugging Face.
- Ce projet se concentre non seulement sur la reproduction des résultats, mais aussi sur le partage d'insights avec la communauté.
Aucun commentaire pour le moment.