7 points par xguru 2023-05-08 | 2 commentaires | Partager sur WhatsApp
  • Un projet visant à créer un modèle de langage entièrement open source
  • Publication des modèles RedPajama-INCITE de 3B (terminé) et 7B (aperçu), basés sur le jeu de données RedPajama-Data-1T publié il y a trois semaines
    • Modèle Base
    • Modèle affiné par instruction
    • Modèle de chat
  • Le modèle 3B est le plus puissant de sa catégorie. Sa petite taille le rend rapide et permet de l’exécuter même sur du matériel comme une RTX 2070 sortie il y a cinq ans
  • La version 7B affinée par instruction obtient un score supérieur de 3 points à LLaMA 7B sur le benchmark HELM
  • Le modèle 7B (entraînement achevé à 80 %) dépasse déjà le modèle Pythia 7B
  • Une fois l’entraînement du 7B terminé dans quelques semaines, il devrait surpasser LLaMA 7B
  • Le modèle 3B a été stabilisé avec 800 milliards de tokens, et le modèle 7B est en cours de finalisation et d’amélioration avec un entraînement sur 1 trillion de tokens

2 commentaires

 
coremaker 2023-05-08

C’est un événement important pour la recherche et les avancées de l’IA,
mais il est peu probable que ce type de modèles propose des solutions aux problèmes liés à leur utilisation commerciale.
Pour un usage commercial, il semble indispensable d’accompagner l’utilisation du modèle de travaux comme le tuning ou la mise en place de filtres supplémentaires.