Comment ChatGPT a-t-il été entraîné ? - RLHF

xguru · 2023-02-08T10:42:16+09:00

L’indicateur le plus approprié pour juger de la « qualité » d’un résultat généré par le modèle est le score de préférence humaine Utiliser les retours évalués par des humains sur les résultats du modèle comme indicateur de qualité du texte généré, puis aller plus loin en concevant une loss qui reflète ces retours afin d’optimiser le modèle, c’est le RLHF (Reinforcement Learning from Human Feedback) RLHF : étape par étape #1 Entraîner un Language Model (pre-training) #2 Collecte de données pour entraîner le Reward Model et entraînement du modèle #3 Fine-tuning du Language Model via Reinforcement Learning RLHF, points à considérer limites actuelles

(littlefoxdiary.tistory.com)

15 points par xguru 2023-02-08 | Aucun commentaire pour le moment. | Partager sur WhatsApp

L’indicateur le plus approprié pour juger de la « qualité » d’un résultat généré par le modèle est le score de préférence humaine
Utiliser les retours évalués par des humains sur les résultats du modèle comme indicateur de qualité du texte généré, puis aller plus loin en concevant une loss qui reflète ces retours afin d’optimiser le modèle, c’est le RLHF (Reinforcement Learning from Human Feedback)
RLHF : étape par étape
- #1 Entraîner un Language Model (pre-training)
- #2 Collecte de données pour entraîner le Reward Model et entraînement du modèle
- #3 Fine-tuning du Language Model via Reinforcement Learning
RLHF, points à considérer
- limites actuelles

Comment ChatGPT a-t-il été entraîné ? - RLHF

À lire aussi

Aucun commentaire pour le moment.