L’évaluation d’Andrej Karpathy sur Meta Llama 3

xguru · 2024-04-19T09:17:00+09:00

Publication des modèles 8B et 70B (à la fois des modèles de base et des modèles affinés). Ils affichent de solides performances dans chaque classe de modèles. Le modèle 400B est encore en cours d’entraînement, mais il approche déjà du territoire de GPT-4 (par ex. MMLU 84,8 contre 86,5 pour GPT-4) Tokenizer Le nombre de tokens a été multiplié par 4, passant de 32K (Llama 2) à 128K (Llama 3) Avec davantage de tokens, il est possible de compresser davantage la longueur des séquences. 15 % de tokens en moins sont cités, avec une amélioration des performances downstream Architecture Dans Llama 2, seuls les grands modèles utilisaient le Grouped Query Attention (GQA), mais désormais tous les modèles, y compris le plus petit modèle 8B, utilisent le GQA Le GQA est un schéma de partage de paramètres pour les clés/valeurs de l’attention, qui réduit la taille du cache KV pendant l’inférence C’est une bonne modification, bienvenue, qui réduit la complexité et facilite l’optimisation Longueur de séquence Le nombre maximal de tokens dans la fenêtre de contexte est passé à 8192, contre 4096 pour Llama 2 et 2048 pour Llama 1 Cette hausse est bienvenue, mais reste nettement faible par rapport au standard actuel (par ex. GPT-4 est à 128K) Beaucoup de gens s’attendaient probablement à davantage sur cet axe. Peut-être que cela sera possible plus tard via du fine-tuning (?) Données d’entraînement Llama 2 a été entraîné sur 2T tokens, et Llama 3 passe à un dataset d’entraînement de 15T Une grande attention a été portée à la qualité des données, à 4 fois plus de tokens de code, ainsi qu’à 5 % de tokens non anglais sur plus de 30 langues 5 % reste assez faible comme mix non-en:en, donc ce modèle reste principalement anglophone. Mais c’est déjà bien mieux que zéro Lois de scaling 15T est un dataset énorme pour entraîner un modèle « petit » comme un 8B, et c’est quelque chose de nouveau, très bienvenu, qui n’est généralement pas fait Au point « compute optimal » de Chinchilla, un modèle 8B devrait être entraîné sur environ ~200B tokens Si l’on ne s’intéresse qu’au « bang-for-the-buck » des performances du modèle, cela suffit largement Mais Meta a entraîné bien au-delà, d’environ ~75 fois ce point, ce qui est inhabituel, mais que je considère personnellement comme très bienvenu Nous y gagnons tous des modèles très compétents, très petits, faciles à manipuler et simples à inférer Meta mentionne aussi qu’à ce stade, le modèle ne semble toujours pas « converger » au sens habituel du terme Autrement dit, les LLM avec lesquels nous travaillons en permanence manquent encore de 100 à 1000 fois plus d’entraînement et ne sont pas proches de leur point de convergence J’espère que cette tendance à publier des modèles beaucoup plus petits, mais entraînés bien plus longtemps, va se poursuivre Système Il est mentionné que Llama 3 a été entraîné sur 16K GPU avec un throughput observé de 400 TFLOPS Ce n’est pas précisé, mais je suppose qu’il s’agit de H100 fp16, annoncés à 1 979 TFLOPS dans les supports marketing de NVIDIA Mais nous savons tous que leur petit astérisque (*with sparsity) fait beaucoup de travail, et qu’il faut diviser ce chiffre par 2 pour obtenir les TFLOPS réels, soit ~990 (Pourquoi la sparsity est-elle comptée dans les FLOPS ?) Quoi qu’il en soit, 400/990 ~= 40 % d’utilisation, ce qui n’est pas mal du tout sur autant de GPU ! Atteindre ce niveau à cette échelle demande énormément d’ingénierie vraiment solide Résumé Llama 3 ressemble à une release de modèle très compétente, et c’est une très bonne nouvelle Meta reste concentré sur les fondamentaux, investit beaucoup de temps dans des systèmes robustes et dans le travail sur les données, et explore les limites des modèles entraînés sur le long terme Le modèle 400B suscite aussi beaucoup d’attentes, car il pourrait devenir la première release open source de niveau GPT-4 Beaucoup de gens vont sans doute réclamer une longueur de contexte plus importante

(twitter.com/karpathy)

16 points par xguru 2024-04-19 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Publication des modèles 8B et 70B (à la fois des modèles de base et des modèles affinés). Ils affichent de solides performances dans chaque classe de modèles.
Le modèle 400B est encore en cours d’entraînement, mais il approche déjà du territoire de GPT-4 (par ex. MMLU 84,8 contre 86,5 pour GPT-4)

Tokenizer

Le nombre de tokens a été multiplié par 4, passant de 32K (Llama 2) à 128K (Llama 3)
Avec davantage de tokens, il est possible de compresser davantage la longueur des séquences. 15 % de tokens en moins sont cités, avec une amélioration des performances downstream

Architecture

Dans Llama 2, seuls les grands modèles utilisaient le Grouped Query Attention (GQA), mais désormais tous les modèles, y compris le plus petit modèle 8B, utilisent le GQA
Le GQA est un schéma de partage de paramètres pour les clés/valeurs de l’attention, qui réduit la taille du cache KV pendant l’inférence
C’est une bonne modification, bienvenue, qui réduit la complexité et facilite l’optimisation

Longueur de séquence

Le nombre maximal de tokens dans la fenêtre de contexte est passé à 8192, contre 4096 pour Llama 2 et 2048 pour Llama 1
Cette hausse est bienvenue, mais reste nettement faible par rapport au standard actuel (par ex. GPT-4 est à 128K)
Beaucoup de gens s’attendaient probablement à davantage sur cet axe. Peut-être que cela sera possible plus tard via du fine-tuning (?)

Données d’entraînement

Llama 2 a été entraîné sur 2T tokens, et Llama 3 passe à un dataset d’entraînement de 15T
Une grande attention a été portée à la qualité des données, à 4 fois plus de tokens de code, ainsi qu’à 5 % de tokens non anglais sur plus de 30 langues
5 % reste assez faible comme mix non-en:en, donc ce modèle reste principalement anglophone. Mais c’est déjà bien mieux que zéro

Lois de scaling

15T est un dataset énorme pour entraîner un modèle « petit » comme un 8B, et c’est quelque chose de nouveau, très bienvenu, qui n’est généralement pas fait
Au point « compute optimal » de Chinchilla, un modèle 8B devrait être entraîné sur environ ~200B tokens
Si l’on ne s’intéresse qu’au « bang-for-the-buck » des performances du modèle, cela suffit largement
Mais Meta a entraîné bien au-delà, d’environ ~75 fois ce point, ce qui est inhabituel, mais que je considère personnellement comme très bienvenu
Nous y gagnons tous des modèles très compétents, très petits, faciles à manipuler et simples à inférer
Meta mentionne aussi qu’à ce stade, le modèle ne semble toujours pas « converger » au sens habituel du terme
Autrement dit, les LLM avec lesquels nous travaillons en permanence manquent encore de 100 à 1000 fois plus d’entraînement et ne sont pas proches de leur point de convergence
J’espère que cette tendance à publier des modèles beaucoup plus petits, mais entraînés bien plus longtemps, va se poursuivre

Système

Il est mentionné que Llama 3 a été entraîné sur 16K GPU avec un throughput observé de 400 TFLOPS
Ce n’est pas précisé, mais je suppose qu’il s’agit de H100 fp16, annoncés à 1 979 TFLOPS dans les supports marketing de NVIDIA
Mais nous savons tous que leur petit astérisque (*with sparsity) fait beaucoup de travail, et qu’il faut diviser ce chiffre par 2 pour obtenir les TFLOPS réels, soit ~990
(Pourquoi la sparsity est-elle comptée dans les FLOPS ?)
Quoi qu’il en soit, 400/990 ~= 40 % d’utilisation, ce qui n’est pas mal du tout sur autant de GPU !
Atteindre ce niveau à cette échelle demande énormément d’ingénierie vraiment solide

Résumé

Llama 3 ressemble à une release de modèle très compétente, et c’est une très bonne nouvelle
Meta reste concentré sur les fondamentaux, investit beaucoup de temps dans des systèmes robustes et dans le travail sur les données, et explore les limites des modèles entraînés sur le long terme
Le modèle 400B suscite aussi beaucoup d’attentes, car il pourrait devenir la première release open source de niveau GPT-4
Beaucoup de gens vont sans doute réclamer une longueur de contexte plus importante