22 points par xguru 2023-08-09 | 3 commentaires | Partager sur WhatsApp
  • L’engouement s’est encore renforcé après la sortie de LLaMA 2
    • Presque tous les groupes de modèles open source ont mis à jour leurs modèles en utilisant un nouveau modèle de base
      • WizardLM, Airoboros, Hermes, etc.
    • Le modèle le plus puissant à l’heure actuelle est Stable Beluga 2 de StabilityAI
      • Fine-tuning du modèle Llama2 70B sur un jeu de données de style Orca
      • Comparable à ChatGPT
  • Les modèles long contexte
    • LLaMA 7B 16K, LLaMA 13B 16K, LLaMA 7B 32K
  • Des modèles petits mais puissants
    • Des modèles de 3B paramètres aussi puissants que des 7B
    • Les limites ne sont pas encore atteintes, et il reste encore beaucoup de marge de progression
    • SlimPajama, SwiGLU, ALiBI, Variable Sequence Length, Maximal update parameterization (muP)
  • Un modèle open source bat ChatGPT sur le MMLU : llama-2-70b-guanaco-qlora
  • Chat multi-tour : llama2-13b-orca-8k-3319
  • Les modèles chinois se livrent bataille : CodeGeex2
  • Les modèles open source ont-ils atteint le niveau de ChatGPT ?
    • Pas encore, mais ils pourraient bientôt y parvenir

3 commentaires

 
botplaysdice 2023-08-10

Chacun va sans doute beaucoup se demander comment gagner de l’argent dans son rôle respectif, avec toutes ces questions de monétisation.

 
geekbini 2023-08-09

Avec la multiplication des services d’IA, ça devient difficile de choisir, entre les services d’IA généralistes et ceux spécialement conçus pour les développeurs~

 
kuroneko 2023-08-09

J’espère que les modèles en coréen progresseront aussi.