10 points par xguru 2023-03-31 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Basé sur le modèle LLaMA
    • collecte de données supervisées
    • fine-tuning supervisé
    • entraînement du modèle de récompense
    • fine-tuning par Reinforcement Learning
  • Contenu inclus
    • démo interactive exécutable en ligne
    • code d’entraînement RLHF complet en open source, incluant des modèles 7B/13B
    • jeu de données bilingue chinois/anglais de 104k éléments
    • quantification 4 bits du modèle 7B, nécessitant seulement 4 Go de mémoire GPU
    • poids du modèle inclus, facilement reproductible sur un seul serveur
    • ajout continu prévu de grands modèles/jeux de données/optimisations, etc.

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.