7 points par xguru 2023-02-28 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Publié en 4 tailles : 7B, 13B, 33B et 65B
  • Bien plus petit, mais plus efficace grâce au renforcement de l'entraînement sur les données et au fine-tuning, avec des performances comparables à celles de modèles de plus grande taille
  • Les modèles 33B/65B ont été entraînés sur 1,4 billion de tokens (1 billion pour le 7B)
  • « Le modèle 13B surpasse GPT-3 (175B), et le 65B peut rivaliser avec les bien plus grands Chinchilla70B et PaLM-540B »
  • Utilisable uniquement à des fins non commerciales, comme la recherche en IA (candidature et approbation requises)

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.