- Publication des modèles 3B/7B ; les modèles 15B/30B/65B doivent aussi être publiés, avec un plan allant jusqu’à 175B
- Les modèles sont sous licence CC BY-SA-4.0 et peuvent être utilisés commercialement avec attribution
- Basé sur le dataset ouvert The Pile, mais entraîné sur un nouveau dataset trois fois plus grand, contenant 1.5T tokens
- La longueur de contexte est de 4096 tokens
- Publication également, comme PoC, du modèle StableLM-Tuned-Alpha-7B affiné en suivant la procédure Alpaca
- Utilise 5 datasets conversationnels : Stanford's Alpaca, Nomic-AI's gpt4all, RyokoAI's ShareGPT52K datasets, Databricks labs' Dolly, Anthropic's HH
- Démo de chatbot disponible sur Hugging Face
2 commentaires
Super, super !
Comme la publication de Stable Diffusion a accéléré le marché, on va sans doute voir affluer des données et des cas d’usage désormais utilisables publiquement pour les modèles de langage aussi.