LLaMA - le LLM de 65 milliards de paramètres publié par Meta

xguru · 2023-02-28T10:49:01+09:00

Publié en 4 tailles : 7B, 13B, 33B et 65B Bien plus petit, mais plus efficace grâce au renforcement de l'entraînement sur les données et au fine-tuning, avec des performances comparables à celles de modèles de plus grande taille Les modèles 33B/65B ont été entraînés sur 1,4 billion de tokens (1 billion pour le 7B) « Le modèle 13B surpasse GPT-3 (175B), et le 65B peut rivaliser avec les bien plus grands Chinchilla70B et PaLM-540B » Utilisable uniquement à des fins non commerciales, comme la recherche en IA (candidature et approbation requises)

(ai.facebook.com)

7 points par xguru 2023-02-28 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Publié en 4 tailles : 7B, 13B, 33B et 65B
Bien plus petit, mais plus efficace grâce au renforcement de l'entraînement sur les données et au fine-tuning, avec des performances comparables à celles de modèles de plus grande taille
Les modèles 33B/65B ont été entraînés sur 1,4 billion de tokens (1 billion pour le 7B)
« Le modèle 13B surpasse GPT-3 (175B), et le 65B peut rivaliser avec les bien plus grands Chinchilla70B et PaLM-540B »
Utilisable uniquement à des fins non commerciales, comme la recherche en IA (candidature et approbation requises)

LLaMA - le LLM de 65 milliards de paramètres publié par Meta

À lire aussi

Aucun commentaire pour le moment.