- Un projet visant à créer un modèle de langage entièrement open source
- Publication des modèles RedPajama-INCITE de 3B (terminé) et 7B (aperçu), basés sur le jeu de données RedPajama-Data-1T publié il y a trois semaines
- Modèle Base
- Modèle affiné par instruction
- Modèle de chat
- Le modèle 3B est le plus puissant de sa catégorie. Sa petite taille le rend rapide et permet de l’exécuter même sur du matériel comme une RTX 2070 sortie il y a cinq ans
- La version 7B affinée par instruction obtient un score supérieur de 3 points à LLaMA 7B sur le benchmark HELM
- Le modèle 7B (entraînement achevé à 80 %) dépasse déjà le modèle Pythia 7B
- Une fois l’entraînement du 7B terminé dans quelques semaines, il devrait surpasser LLaMA 7B
- Le modèle 3B a été stabilisé avec 800 milliards de tokens, et le modèle 7B est en cours de finalisation et d’amélioration avec un entraînement sur 1 trillion de tokens
2 commentaires
C’est un événement important pour la recherche et les avancées de l’IA,
mais il est peu probable que ce type de modèles propose des solutions aux problèmes liés à leur utilisation commerciale.
Pour un usage commercial, il semble indispensable d’accompagner l’utilisation du modèle de travaux comme le tuning ou la mise en place de filtres supplémentaires.
RedPajama - projet open source visant à recréer le jeu de données de LLaMA