16 points par xguru 2024-04-19 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Publication des modèles 8B et 70B (à la fois des modèles de base et des modèles affinés). Ils affichent de solides performances dans chaque classe de modèles.
  • Le modèle 400B est encore en cours d’entraînement, mais il approche déjà du territoire de GPT-4 (par ex. MMLU 84,8 contre 86,5 pour GPT-4)

Tokenizer

  • Le nombre de tokens a été multiplié par 4, passant de 32K (Llama 2) à 128K (Llama 3)
  • Avec davantage de tokens, il est possible de compresser davantage la longueur des séquences. 15 % de tokens en moins sont cités, avec une amélioration des performances downstream

Architecture

  • Dans Llama 2, seuls les grands modèles utilisaient le Grouped Query Attention (GQA), mais désormais tous les modèles, y compris le plus petit modèle 8B, utilisent le GQA
  • Le GQA est un schéma de partage de paramètres pour les clés/valeurs de l’attention, qui réduit la taille du cache KV pendant l’inférence
  • C’est une bonne modification, bienvenue, qui réduit la complexité et facilite l’optimisation

Longueur de séquence

  • Le nombre maximal de tokens dans la fenêtre de contexte est passé à 8192, contre 4096 pour Llama 2 et 2048 pour Llama 1
  • Cette hausse est bienvenue, mais reste nettement faible par rapport au standard actuel (par ex. GPT-4 est à 128K)
  • Beaucoup de gens s’attendaient probablement à davantage sur cet axe. Peut-être que cela sera possible plus tard via du fine-tuning (?)

Données d’entraînement

  • Llama 2 a été entraîné sur 2T tokens, et Llama 3 passe à un dataset d’entraînement de 15T
  • Une grande attention a été portée à la qualité des données, à 4 fois plus de tokens de code, ainsi qu’à 5 % de tokens non anglais sur plus de 30 langues
  • 5 % reste assez faible comme mix non-en:en, donc ce modèle reste principalement anglophone. Mais c’est déjà bien mieux que zéro

Lois de scaling

  • 15T est un dataset énorme pour entraîner un modèle « petit » comme un 8B, et c’est quelque chose de nouveau, très bienvenu, qui n’est généralement pas fait
  • Au point « compute optimal » de Chinchilla, un modèle 8B devrait être entraîné sur environ ~200B tokens
  • Si l’on ne s’intéresse qu’au « bang-for-the-buck » des performances du modèle, cela suffit largement
  • Mais Meta a entraîné bien au-delà, d’environ ~75 fois ce point, ce qui est inhabituel, mais que je considère personnellement comme très bienvenu
  • Nous y gagnons tous des modèles très compétents, très petits, faciles à manipuler et simples à inférer
  • Meta mentionne aussi qu’à ce stade, le modèle ne semble toujours pas « converger » au sens habituel du terme
  • Autrement dit, les LLM avec lesquels nous travaillons en permanence manquent encore de 100 à 1000 fois plus d’entraînement et ne sont pas proches de leur point de convergence
  • J’espère que cette tendance à publier des modèles beaucoup plus petits, mais entraînés bien plus longtemps, va se poursuivre

Système

  • Il est mentionné que Llama 3 a été entraîné sur 16K GPU avec un throughput observé de 400 TFLOPS
  • Ce n’est pas précisé, mais je suppose qu’il s’agit de H100 fp16, annoncés à 1 979 TFLOPS dans les supports marketing de NVIDIA
  • Mais nous savons tous que leur petit astérisque (*with sparsity) fait beaucoup de travail, et qu’il faut diviser ce chiffre par 2 pour obtenir les TFLOPS réels, soit ~990
  • (Pourquoi la sparsity est-elle comptée dans les FLOPS ?)
  • Quoi qu’il en soit, 400/990 ~= 40 % d’utilisation, ce qui n’est pas mal du tout sur autant de GPU !
  • Atteindre ce niveau à cette échelle demande énormément d’ingénierie vraiment solide

Résumé

  • Llama 3 ressemble à une release de modèle très compétente, et c’est une très bonne nouvelle
  • Meta reste concentré sur les fondamentaux, investit beaucoup de temps dans des systèmes robustes et dans le travail sur les données, et explore les limites des modèles entraînés sur le long terme
  • Le modèle 400B suscite aussi beaucoup d’attentes, car il pourrait devenir la première release open source de niveau GPT-4
  • Beaucoup de gens vont sans doute réclamer une longueur de contexte plus importante

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.