24 points par xguru 2023-04-20 | 2 commentaires | Partager sur WhatsApp
  • Publication des modèles 3B/7B ; les modèles 15B/30B/65B doivent aussi être publiés, avec un plan allant jusqu’à 175B
  • Les modèles sont sous licence CC BY-SA-4.0 et peuvent être utilisés commercialement avec attribution
  • Basé sur le dataset ouvert The Pile, mais entraîné sur un nouveau dataset trois fois plus grand, contenant 1.5T tokens
  • La longueur de contexte est de 4096 tokens
  • Publication également, comme PoC, du modèle StableLM-Tuned-Alpha-7B affiné en suivant la procédure Alpaca
    • Utilise 5 datasets conversationnels : Stanford's Alpaca, Nomic-AI's gpt4all, RyokoAI's ShareGPT52K datasets, Databricks labs' Dolly, Anthropic's HH
    • Démo de chatbot disponible sur Hugging Face

2 commentaires

 
laeyoung 2023-04-20

Super, super !

 
xguru 2023-04-20

Comme la publication de Stable Diffusion a accéléré le marché, on va sans doute voir affluer des données et des cas d’usage désormais utilisables publiquement pour les modèles de langage aussi.