15 points par ninebow 2023-06-07 | 3 commentaires | Partager sur WhatsApp

Présentation des 3 modèles RedPajama-INCITE-7B

  • Publication de trois modèles 7B, dont le modèle RedPajama-INCITE-7B-Instruct, qui surpasse les modèles 7B publics existants selon le benchmark HELM

Modèle RedPajama-INCITE-7B-Instruct

  • Version ajustée en Instruct du modèle existant
  • Entraîné avec P3 (BigScience) et Natural Instruction (AI2)
  • Modèle open source ayant obtenu le meilleur score sur le benchmark HELM, idéal pour diverses tâches

Modèle RedPajama-INCITE-7B-Chat

  • Entraîné uniquement avec des données open source comme Dolly2 et OASST ➡️ utilisation commerciale possible
    • (+ Non seulement le modèle Chat, mais toute la gamme RedPajama-INCITE est utilisable commercialement)
  • Publication avec les scripts d'entraînement pour le fine-tuning :arrow_forward: utilisable directement dans OpenChatKit
  • Prise en charge de RedPajama.cpp (fork de LLaMA.cpp) - exécutable sur CPU
  • Collaboration avec des projets comme MLC LLM ➡️ pour le faire fonctionner à l'avenir sur divers matériels

Modèle RedPajama-INCITE-7B-Base

  • Utilise la même architecture que le modèle Pythia d'EleutherAI, entraîné sur le jeu de données RedPajama-Data-1T
  • Téléchargeable sur 🤗HuggingFace via togethercomputer/RedPajama-INCITE-7B-Base
  • Selon le benchmark HELM, performances inférieures d'environ 4 points à LLaMA-7B, et d'environ 1,3 point à Falcon-7B/MPT-7B
    • Performances plus faibles uniquement sur les tâches qui calculent l'écart de probabilité entre bonnes et mauvaises réponses à l'aide de logprob
    • Sur les tâches où le modèle génère directement une réponse et où l'on mesure sa qualité, il montre des performances similaires
    • Les résultats de LM Harness utilisant aussi logprob, ils montrent de la même manière des performances plus faibles

Feuille de route (RedPajama2)

  • Développement en cours de RedPajama2, un nouveau jeu de données de 2 à 3T tokens, avec le plan suivant :
    • Équilibrer le mélange de données à l'aide de techniques comme DoReMi
    • Utiliser des données comme Pile v1 d'Eleuther.ai et Pile v2 de CarperAI pour renforcer la diversité et la taille
    • Traiter davantage de données CommonCrawl
    • Explorer diverses stratégies de déduplication des données au-delà de l'approche décrite dans l'article LLaMA
    • Ajouter plus de 150B de tokens de code pour améliorer la qualité sur les tâches de coding et de raisonnement

3 commentaires

 
ninebow 2023-06-07

Oups… il y avait une faute de frappe dans le titre…
@xguru, pourriez-vous éventuellement remplacer HEML par HELM dans le titre ?

 
moderator 2023-06-08

Je l’ai corrigé !