Publication des modèles RedPajama 3B et 7B

xguru · 2023-05-08T10:01:01+09:00

Un projet visant à créer un modèle de langage entièrement open source Publication des modèles RedPajama-INCITE de 3B (terminé) et 7B (aperçu), basés sur le jeu de données RedPajama-Data-1T publié il y a trois semaines Modèle Base Modèle affiné par instruction Modèle de chat Le modèle 3B est le plus puissant de sa catégorie. Sa petite taille le rend rapide et permet de l’exécuter même sur du matériel comme une RTX 2070 sortie il y a cinq ans La version 7B affinée par instruction obtient un score supérieur de 3 points à LLaMA 7B sur le benchmark HELM Le modèle 7B (entraînement achevé à 80 %) dépasse déjà le modèle Pythia 7B Une fois l’entraînement du 7B terminé dans quelques semaines, il devrait surpasser LLaMA 7B Le modèle 3B a été stabilisé avec 800 milliards de tokens, et le modèle 7B est en cours de finalisation et d’amélioration avec un entraînement sur 1 trillion de tokens

(together.xyz)

7 points par xguru 2023-05-08 | 2 commentaires | Partager sur WhatsApp

Un projet visant à créer un modèle de langage entièrement open source
Publication des modèles RedPajama-INCITE de 3B (terminé) et 7B (aperçu), basés sur le jeu de données RedPajama-Data-1T publié il y a trois semaines
- Modèle Base
- Modèle affiné par instruction
- Modèle de chat
Le modèle 3B est le plus puissant de sa catégorie. Sa petite taille le rend rapide et permet de l’exécuter même sur du matériel comme une RTX 2070 sortie il y a cinq ans
La version 7B affinée par instruction obtient un score supérieur de 3 points à LLaMA 7B sur le benchmark HELM
Le modèle 7B (entraînement achevé à 80 %) dépasse déjà le modèle Pythia 7B
Une fois l’entraînement du 7B terminé dans quelques semaines, il devrait surpasser LLaMA 7B
Le modèle 3B a été stabilisé avec 800 milliards de tokens, et le modèle 7B est en cours de finalisation et d’amélioration avec un entraînement sur 1 trillion de tokens

2 commentaires

coremaker 2023-05-08

C’est un événement important pour la recherche et les avancées de l’IA,
mais il est peu probable que ce type de modèles propose des solutions aux problèmes liés à leur utilisation commerciale.
Pour un usage commercial, il semble indispensable d’accompagner l’utilisation du modèle de travaux comme le tuning ou la mise en place de filtres supplémentaires.

xguru 2023-05-08

RedPajama - projet open source visant à recréer le jeu de données de LLaMA

Publication des modèles RedPajama 3B et 7B

À lire aussi

2 commentaires