14 points par xguru 2023-04-19 | 1 commentaires | Partager sur WhatsApp
  • Un projet visant à créer un modèle de langage entièrement open source et reproductible, plutôt qu’un modèle semi-ouvert comme LLaMA, Alpaca ou Vicuna
  • Trois composants
    • Des données de pré-entraînement de haute qualité avec une large couverture
    • Un modèle de base entraîné à grande échelle sur ces données
    • Des données et modèles d’instruction tuning pour rendre le modèle de base sûr et utilisable
  • Publication du premier composant, le dataset RedPajama-Data-1T
    • Un dataset entièrement ouvert composé de 1,2 billion de tokens, créé selon la recette décrite dans l’article sur LLaMA
    • Téléchargeable via HuggingFace. 5 To au total (distribué compressé à 3 To)
    • Composé de 7 fragments de données : chacun a été prétraité et filtré pour obtenir des volumes similaires à ceux de l’article LLaMA (les méthodes de prétraitement et les filtres sont également publiés sur GitHub)
      • CommonCrawl (878b) - données de crawl web
      • C4 (175b) - version Colossal, nettoyée, de Common Crawl
      • GitHub (59b) - données GitHub filtrées selon la licence et la qualité
      • arXiv (28b) - articles et publications scientifiques (boilerplate supprimé)
      • Books (26b) - corpus de livres publics dédupliqué selon la similarité de contenu
      • Wikipedia (24b) - une partie des pages de Wikipédia (boilerplate supprimé)
      • StackExchange (20b) - une partie des pages de Stack Exchange (boilerplate supprimé)
  • La prochaine étape consiste à entraîner un modèle de base puissant, avec une publication prévue dans les prochaines semaines
  • L’instruction tuning devrait s’appuyer sur ce qui a été fourni via OpenChatkit