ColossalChat - une solution open source de pipeline RLHF pour cloner ChatGPT

xguru · 2023-03-31T11:32:02+09:00

Basé sur le modèle LLaMA collecte de données supervisées fine-tuning supervisé entraînement du modèle de récompense fine-tuning par Reinforcement Learning Contenu inclus démo interactive exécutable en ligne code d’entraînement RLHF complet en open source, incluant des modèles 7B/13B jeu de données bilingue chinois/anglais de 104k éléments quantification 4 bits du modèle 7B, nécessitant seulement 4 Go de mémoire GPU poids du modèle inclus, facilement reproductible sur un seul serveur ajout continu prévu de grands modèles/jeux de données/optimisations, etc.

(medium.com/@yangyou_berkeley)

10 points par xguru 2023-03-31 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Basé sur le modèle LLaMA
- collecte de données supervisées
- fine-tuning supervisé
- entraînement du modèle de récompense
- fine-tuning par Reinforcement Learning
Contenu inclus
- démo interactive exécutable en ligne
- code d’entraînement RLHF complet en open source, incluant des modèles 7B/13B
- jeu de données bilingue chinois/anglais de 104k éléments
- quantification 4 bits du modèle 7B, nécessitant seulement 4 Go de mémoire GPU
- poids du modèle inclus, facilement reproductible sur un seul serveur
- ajout continu prévu de grands modèles/jeux de données/optimisations, etc.

ColossalChat - une solution open source de pipeline RLHF pour cloner ChatGPT

À lire aussi

Aucun commentaire pour le moment.