- L’indicateur le plus approprié pour juger de la « qualité » d’un résultat généré par le modèle est le score de préférence humaine
- Utiliser les retours évalués par des humains sur les résultats du modèle comme indicateur de qualité du texte généré, puis aller plus loin en concevant une loss qui reflète ces retours afin d’optimiser le modèle, c’est le RLHF (Reinforcement Learning from Human Feedback)
- RLHF : étape par étape
- #1 Entraîner un Language Model (pre-training)
- #2 Collecte de données pour entraîner le Reward Model et entraînement du modèle
- #3 Fine-tuning du Language Model via Reinforcement Learning
- RLHF, points à considérer
Aucun commentaire pour le moment.