DeepSeek-R1 illustré

(newsletter.languagemodels.co)

2 points par GN⁺ 2025-01-28 | Aucun commentaire pour le moment. | Partager sur WhatsApp

The Illustrated DeepSeek-R1

Présentation de DeepSeek-R1
- DeepSeek-R1 constitue une étape importante dans l’évolution de l’IA et a eu un fort impact sur la communauté de recherche et développement en ML.
- Ce modèle est un modèle à poids ouverts, et des versions distillées de plus petite taille sont également disponibles.
- Il partage et reprend des méthodes d’entraînement qui reproduisent des modèles de raisonnement comme OpenAI O1.
Résumé de l’entraînement des LLM
- DeepSeek-R1 génère un token à la fois, comme les LLM existants, et excelle dans la résolution de problèmes de mathématiques et de raisonnement.
- Le processus général pour créer un LLM de haute qualité est le suivant :
  1. une phase de modélisation du langage qui prédit le mot suivant à partir d’un grand volume de données du web ;
  2. une phase de fine-tuning supervisé pour permettre au modèle de suivre des instructions et de répondre à des questions ;
  3. une phase d’alignement sur les préférences pour affiner le comportement du modèle selon les préférences humaines.
Processus d’entraînement de DeepSeek-R1
- DeepSeek-R1 utilise le modèle de base de DeepSeek-V3 et passe par des étapes de SFT et d’alignement sur les préférences.
- Trois points particuliers sont à noter dans le processus de création de R1 :
  1. Données SFT avec longues chaînes de raisonnement : 600 000 exemples de raisonnement long sont inclus.
  2. LLM de raisonnement temporaire de haute qualité : un modèle spécialisé dans le raisonnement, créé à partir d’une petite quantité de données annotées et d’un apprentissage par renforcement à grande échelle.
  3. Création d’un modèle de raisonnement via apprentissage par renforcement à grande échelle : le modèle appelé R1-Zero génère des exemples de raisonnement, qui servent ensuite à entraîner un modèle général.
Caractéristiques de R1-Zero
- R1-Zero excelle dans les tâches de raisonnement même sans jeu d’entraînement SFT annoté.
- Cela suggère que les modèles de base modernes dépassent désormais un certain seuil de qualité et de capacité.
- Les problèmes de raisonnement peuvent être vérifiés ou annotés automatiquement.
Génération de données de raisonnement SFT
- Le modèle de raisonnement temporaire passe par une étape d’entraînement SFT à l’aide de quelques milliers d’exemples de problèmes de raisonnement.
- Ces données sont produites en rendant les sorties de R1-Zero plus lisibles.
Étape générale d’entraînement RL
- R1 excelle à la fois dans les tâches de raisonnement et de non-raisonnement.
- Il s’appuie sur des modèles de récompense d’utilité et de sécurité pour être appliqué à diverses applications.
Architecture
- DeepSeek-R1 se compose de 61 blocs décodeurs Transformer.
- Les trois premiers sont des couches denses, les autres étant des couches de mélange d’experts.
Conclusion
- Cela aide à comprendre les concepts clés du modèle DeepSeek-R1.
- Plus d’informations sont disponibles dans le livre Hands-On Large Language Models ou sur GitHub.

DeepSeek-R1 illustré

The Illustrated DeepSeek-R1

À lire aussi

Aucun commentaire pour le moment.