- Publié en 4 tailles : 7B, 13B, 33B et 65B
- Bien plus petit, mais plus efficace grâce au renforcement de l'entraînement sur les données et au fine-tuning, avec des performances comparables à celles de modèles de plus grande taille
- Les modèles 33B/65B ont été entraînés sur 1,4 billion de tokens (1 billion pour le 7B)
- « Le modèle 13B surpasse GPT-3 (175B), et le 65B peut rivaliser avec les bien plus grands Chinchilla70B et PaLM-540B »
- Utilisable uniquement à des fins non commerciales, comme la recherche en IA (candidature et approbation requises)
Aucun commentaire pour le moment.