2 points par GN⁺ 2025-01-28 | Aucun commentaire pour le moment. | Partager sur WhatsApp

The Illustrated DeepSeek-R1

  • Présentation de DeepSeek-R1

    • DeepSeek-R1 constitue une étape importante dans l’évolution de l’IA et a eu un fort impact sur la communauté de recherche et développement en ML.
    • Ce modèle est un modèle à poids ouverts, et des versions distillées de plus petite taille sont également disponibles.
    • Il partage et reprend des méthodes d’entraînement qui reproduisent des modèles de raisonnement comme OpenAI O1.
  • Résumé de l’entraînement des LLM

    • DeepSeek-R1 génère un token à la fois, comme les LLM existants, et excelle dans la résolution de problèmes de mathématiques et de raisonnement.
    • Le processus général pour créer un LLM de haute qualité est le suivant :
      1. une phase de modélisation du langage qui prédit le mot suivant à partir d’un grand volume de données du web ;
      2. une phase de fine-tuning supervisé pour permettre au modèle de suivre des instructions et de répondre à des questions ;
      3. une phase d’alignement sur les préférences pour affiner le comportement du modèle selon les préférences humaines.
  • Processus d’entraînement de DeepSeek-R1

    • DeepSeek-R1 utilise le modèle de base de DeepSeek-V3 et passe par des étapes de SFT et d’alignement sur les préférences.
    • Trois points particuliers sont à noter dans le processus de création de R1 :
      1. Données SFT avec longues chaînes de raisonnement : 600 000 exemples de raisonnement long sont inclus.
      2. LLM de raisonnement temporaire de haute qualité : un modèle spécialisé dans le raisonnement, créé à partir d’une petite quantité de données annotées et d’un apprentissage par renforcement à grande échelle.
      3. Création d’un modèle de raisonnement via apprentissage par renforcement à grande échelle : le modèle appelé R1-Zero génère des exemples de raisonnement, qui servent ensuite à entraîner un modèle général.
  • Caractéristiques de R1-Zero

    • R1-Zero excelle dans les tâches de raisonnement même sans jeu d’entraînement SFT annoté.
    • Cela suggère que les modèles de base modernes dépassent désormais un certain seuil de qualité et de capacité.
    • Les problèmes de raisonnement peuvent être vérifiés ou annotés automatiquement.
  • Génération de données de raisonnement SFT

    • Le modèle de raisonnement temporaire passe par une étape d’entraînement SFT à l’aide de quelques milliers d’exemples de problèmes de raisonnement.
    • Ces données sont produites en rendant les sorties de R1-Zero plus lisibles.
  • Étape générale d’entraînement RL

    • R1 excelle à la fois dans les tâches de raisonnement et de non-raisonnement.
    • Il s’appuie sur des modèles de récompense d’utilité et de sécurité pour être appliqué à diverses applications.
  • Architecture

    • DeepSeek-R1 se compose de 61 blocs décodeurs Transformer.
    • Les trois premiers sont des couches denses, les autres étant des couches de mélange d’experts.
  • Conclusion

    • Cela aide à comprendre les concepts clés du modèle DeepSeek-R1.
    • Plus d’informations sont disponibles dans le livre Hands-On Large Language Models ou sur GitHub.

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.