Open-R1 : projet de reproduction entièrement open source de DeepSeek-R1

(huggingface.co)

16 points par GN⁺ 2025-01-29 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Qu'est-ce que DeepSeek-R1 ?

Le modèle o1 d'OpenAI a été entraîné en utilisant davantage de calcul afin de permettre aux LLMs de mieux effectuer les tâches de raisonnement.
DeepSeek-R1 affiche des performances comparables, voire supérieures, à celles du modèle o1 d'OpenAI, et apprend à raisonner sans supervision humaine grâce à l'apprentissage par renforcement pur (RL).
La publication de DeepSeek-R1 soulève plusieurs questions sur la collecte des données, l'entraînement des modèles et les lois de passage à l'échelle.

DeepSeek-R1 est un modèle de raisonnement construit sur la base de DeepSeek-V3, et c'est un modèle Mixture of Experts (MoE) de 671B.
DeepSeek-R1-Zero a été entraîné uniquement à l'aide de l'apprentissage par renforcement et utilise Group Relative Policy Optimization (GRPO) pour améliorer l'efficacité.
DeepSeek-R1 améliore la clarté et la lisibilité au stade initial à l'aide de petits exemples, puis génère des réponses cohérentes via des étapes d'apprentissage par renforcement et de raffinement.

La publication de DeepSeek-R1 a été d'une grande aide pour la communauté, mais le dataset et le code n'ont pas été rendus publics.
Le projet Open-R1 vise à reconstruire les données et le pipeline d'entraînement de DeepSeek-R1, et à apporter de la transparence sur la manière dont l'apprentissage par renforcement améliore le raisonnement.

Reproduire les modèles R1-Distill : extraire un dataset de raisonnement de haute qualité à partir de DeepSeek-R1 et réaliser un apprentissage par distillation
Répliquer le pipeline d'entraînement purement RL de R1-Zero : construire de grands datasets en mathématiques, logique et code
Construire le processus d'entraînement par étapes modèle de base → SFT → RL

Il existe plusieurs façons de contribuer au projet Open-R1, comme contribuer au code ou participer aux discussions sur Hugging Face.
Ce projet se concentre non seulement sur la reproduction des résultats, mais aussi sur le partage d'insights avec la communauté.