RedPajama dévoile un modèle 7B plus performant que les autres modèles LLM 7B publics sur le benchmark HELM

(together.xyz)

15 points par ninebow 2023-06-07 | 3 commentaires | Partager sur WhatsApp

Présentation des 3 modèles RedPajama-INCITE-7B

Publication de trois modèles 7B, dont le modèle RedPajama-INCITE-7B-Instruct, qui surpasse les modèles 7B publics existants selon le benchmark HELM

Version ajustée en Instruct du modèle existant
Entraîné avec P3 (BigScience) et Natural Instruction (AI2)
Modèle open source ayant obtenu le meilleur score sur le benchmark HELM, idéal pour diverses tâches

Entraîné uniquement avec des données open source comme Dolly2 et OASST ➡️ utilisation commerciale possible
- (+ Non seulement le modèle Chat, mais toute la gamme RedPajama-INCITE est utilisable commercialement)
Publication avec les scripts d'entraînement pour le fine-tuning :arrow_forward: utilisable directement dans OpenChatKit
Prise en charge de RedPajama.cpp (fork de LLaMA.cpp) - exécutable sur CPU
Collaboration avec des projets comme MLC LLM ➡️ pour le faire fonctionner à l'avenir sur divers matériels

Utilise la même architecture que le modèle Pythia d'EleutherAI, entraîné sur le jeu de données RedPajama-Data-1T
Téléchargeable sur 🤗HuggingFace via togethercomputer/RedPajama-INCITE-7B-Base
Selon le benchmark HELM, performances inférieures d'environ 4 points à LLaMA-7B, et d'environ 1,3 point à Falcon-7B/MPT-7B
- Performances plus faibles uniquement sur les tâches qui calculent l'écart de probabilité entre bonnes et mauvaises réponses à l'aide de logprob
- Sur les tâches où le modèle génère directement une réponse et où l'on mesure sa qualité, il montre des performances similaires
- Les résultats de LM Harness utilisant aussi logprob, ils montrent de la même manière des performances plus faibles

3 commentaires

ninebow 2023-06-07

Oups… il y avait une faute de frappe dans le titre…
@xguru, pourriez-vous éventuellement remplacer HEML par HELM dans le titre ?

moderator 2023-06-08

Je l’ai corrigé !

ninebow 2023-06-07