DeepSeek-R1 illustré
(newsletter.languagemodels.co)The Illustrated DeepSeek-R1
-
Présentation de DeepSeek-R1
- DeepSeek-R1 constitue une étape importante dans l’évolution de l’IA et a eu un fort impact sur la communauté de recherche et développement en ML.
- Ce modèle est un modèle à poids ouverts, et des versions distillées de plus petite taille sont également disponibles.
- Il partage et reprend des méthodes d’entraînement qui reproduisent des modèles de raisonnement comme OpenAI O1.
-
Résumé de l’entraînement des LLM
- DeepSeek-R1 génère un token à la fois, comme les LLM existants, et excelle dans la résolution de problèmes de mathématiques et de raisonnement.
- Le processus général pour créer un LLM de haute qualité est le suivant :
- une phase de modélisation du langage qui prédit le mot suivant à partir d’un grand volume de données du web ;
- une phase de fine-tuning supervisé pour permettre au modèle de suivre des instructions et de répondre à des questions ;
- une phase d’alignement sur les préférences pour affiner le comportement du modèle selon les préférences humaines.
-
Processus d’entraînement de DeepSeek-R1
- DeepSeek-R1 utilise le modèle de base de DeepSeek-V3 et passe par des étapes de SFT et d’alignement sur les préférences.
- Trois points particuliers sont à noter dans le processus de création de R1 :
- Données SFT avec longues chaînes de raisonnement : 600 000 exemples de raisonnement long sont inclus.
- LLM de raisonnement temporaire de haute qualité : un modèle spécialisé dans le raisonnement, créé à partir d’une petite quantité de données annotées et d’un apprentissage par renforcement à grande échelle.
- Création d’un modèle de raisonnement via apprentissage par renforcement à grande échelle : le modèle appelé R1-Zero génère des exemples de raisonnement, qui servent ensuite à entraîner un modèle général.
-
Caractéristiques de R1-Zero
- R1-Zero excelle dans les tâches de raisonnement même sans jeu d’entraînement SFT annoté.
- Cela suggère que les modèles de base modernes dépassent désormais un certain seuil de qualité et de capacité.
- Les problèmes de raisonnement peuvent être vérifiés ou annotés automatiquement.
-
Génération de données de raisonnement SFT
- Le modèle de raisonnement temporaire passe par une étape d’entraînement SFT à l’aide de quelques milliers d’exemples de problèmes de raisonnement.
- Ces données sont produites en rendant les sorties de R1-Zero plus lisibles.
-
Étape générale d’entraînement RL
- R1 excelle à la fois dans les tâches de raisonnement et de non-raisonnement.
- Il s’appuie sur des modèles de récompense d’utilité et de sécurité pour être appliqué à diverses applications.
-
Architecture
- DeepSeek-R1 se compose de 61 blocs décodeurs Transformer.
- Les trois premiers sont des couches denses, les autres étant des couches de mélange d’experts.
-
Conclusion
- Cela aide à comprendre les concepts clés du modèle DeepSeek-R1.
- Plus d’informations sont disponibles dans le livre Hands-On Large Language Models ou sur GitHub.
Aucun commentaire pour le moment.