16 points par GN⁺ 2025-01-29 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Qu'est-ce que DeepSeek-R1 ?

  • Le modèle o1 d'OpenAI a été entraîné en utilisant davantage de calcul afin de permettre aux LLMs de mieux effectuer les tâches de raisonnement.
  • DeepSeek-R1 affiche des performances comparables, voire supérieures, à celles du modèle o1 d'OpenAI, et apprend à raisonner sans supervision humaine grâce à l'apprentissage par renforcement pur (RL).
  • La publication de DeepSeek-R1 soulève plusieurs questions sur la collecte des données, l'entraînement des modèles et les lois de passage à l'échelle.

Comment ont-ils procédé ?

  • DeepSeek-R1 est un modèle de raisonnement construit sur la base de DeepSeek-V3, et c'est un modèle Mixture of Experts (MoE) de 671B.
  • DeepSeek-R1-Zero a été entraîné uniquement à l'aide de l'apprentissage par renforcement et utilise Group Relative Policy Optimization (GRPO) pour améliorer l'efficacité.
  • DeepSeek-R1 améliore la clarté et la lisibilité au stade initial à l'aide de petits exemples, puis génère des réponses cohérentes via des étapes d'apprentissage par renforcement et de raffinement.

Open-R1 : les pièces manquantes

  • La publication de DeepSeek-R1 a été d'une grande aide pour la communauté, mais le dataset et le code n'ont pas été rendus publics.
  • Le projet Open-R1 vise à reconstruire les données et le pipeline d'entraînement de DeepSeek-R1, et à apporter de la transparence sur la manière dont l'apprentissage par renforcement améliore le raisonnement.

Plan par étapes d'Open-R1

  1. Reproduire les modèles R1-Distill : extraire un dataset de raisonnement de haute qualité à partir de DeepSeek-R1 et réaliser un apprentissage par distillation
  2. Répliquer le pipeline d'entraînement purement RL de R1-Zero : construire de grands datasets en mathématiques, logique et code
  3. Construire le processus d'entraînement par étapes modèle de base → SFT → RL

Comment contribuer

  • Il existe plusieurs façons de contribuer au projet Open-R1, comme contribuer au code ou participer aux discussions sur Hugging Face.
  • Ce projet se concentre non seulement sur la reproduction des résultats, mais aussi sur le partage d'insights avec la communauté.

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.