- Basé sur le modèle LLaMA
- collecte de données supervisées
- fine-tuning supervisé
- entraînement du modèle de récompense
- fine-tuning par Reinforcement Learning
- Contenu inclus
- démo interactive exécutable en ligne
- code d’entraînement RLHF complet en open source, incluant des modèles 7B/13B
- jeu de données bilingue chinois/anglais de 104k éléments
- quantification 4 bits du modèle 7B, nécessitant seulement 4 Go de mémoire GPU
- poids du modèle inclus, facilement reproductible sur un seul serveur
- ajout continu prévu de grands modèles/jeux de données/optimisations, etc.
Aucun commentaire pour le moment.