Sortie des modèles de langage Llama 3 de Meta

(llama.meta.com)

1 points par GN⁺ 2024-04-19 | 1 commentaires | Partager sur WhatsApp

La page Llama de Meta présente la famille de modèles Llama comme une IA open source pensée pour la facilité de déploiement, l’efficacité en coût, les performances et le passage à l’échelle massif, en couvrant à la fois les gammes Llama 4 et Llama 3
Llama 4 Maverick et Llama 4 Scout sont des modèles multimodaux natifs basés sur l’early fusion, préentraînés conjointement sur du texte et des tokens visuels, et mettent tous deux en avant un contexte de 10M tokens
La gamme Llama 3 se décline en 3.1, 3.2 et 3.3, avec des options en 8B, 70B, 405B, 1B, 3B, 11B, 90B et 70B selon la taille et les usages visés, entre texte, edge et multimodal
Les comparaisons de performances incluent MMLU Pro, GPQA Diamond, LiveCodeBench, MMMU, ChartQA, DocVQA, MMLU Multi et MTOB, et Llama 4 Maverick atteint 80.5 sur MMLU Pro contre 74.3 pour Scout
Dans les cas d’usage de Stoque et Shopify, les résultats rapportés incluent une baisse de 50 % des questions répétitives au support technique, une hausse de 11 % de la satisfaction interne, une augmentation de 76 % du débit de traitement des tokens et une réduction de 33 % des coûts de calcul grâce à une sortie JSON

Famille de modèles Llama et options par version

Llama est une famille de modèles que l’on peut concevoir selon ses propres contraintes, visant la simplicité de déploiement, l’efficacité en coût, les performances et le passage à l’échelle jusqu’à des milliards d’utilisateurs
Les principaux axes des derniers modèles Llama sont le multimodal natif, le raisonnement avancé et les longues fenêtres de contexte
Les model cards et formats de prompt sont disponibles dans Model overview
Llama 4 : multimodal natif et contexte de 10M
- Llama 4 est une famille de modèles multimodaux natifs utilisant l’early fusion pour préentraîner ensemble, sans labels, des données textuelles et visuelles
- Llama 4 Maverick prend en charge la compréhension des images et du texte, et traite des tâches de long format avec un contexte de 10M tokens
- Ses principaux usages concernent la mémoire, la personnalisation et les applications multimodales
- Llama 4 Scout est un modèle fournissant des capacités textuelles et de vision, mis en avant pour son efficacité sur un seul GPU H100 et sa fenêtre de contexte de 10M
- L’analyse de documents longs est présentée comme l’un de ses principaux cas d’usage
- Les détails sont fournis dans la documentation des modèles Llama 4
Llama 3 : une gamme de modèles selon la taille et l’usage
- Llama 3 est une famille de modèles d’IA open source pouvant être fine-tunés, distillés et déployés partout
- Llama 3.3 est un grand modèle de langage open source multilingue proposé en 70B, présenté comme offrant des performances et une qualité de niveau 405B à moindre coût
- Il est adapté aux usages textuels comme la génération de données synthétiques, avec plus de détails dans la documentation des modèles Llama 3.3
- Llama 3.2 est une famille de modèles flexible et économique pensée pour les usages edge
  - Les versions 1B et 3B sont légères et économiques, et peuvent s’exécuter partout
  - Les versions 11B et 90B sont des modèles multimodaux capables de raisonner sur des images haute résolution et de produire du texte
  - Les détails sont fournis dans la documentation des modèles Llama 3.2
- Llama 3.1 est un modèle de fondation ouvert axé sur la flexibilité et le contrôle, disponible en 8B, 70B et 405B
- Il couvre les connaissances générales, l’ajustabilité, les mathématiques, l’usage d’outils et la traduction multilingue, et sert à des usages comme le résumé de texte, les agents multilingues et le code
- Les détails sont disponibles dans la documentation des modèles Llama 3.1

Indicateurs de performance et résultats concrets d’adoption

Benchmarks de Llama 4 et conditions d’évaluation
- Les capacités de Llama 4 sont résumées autour du multimodal natif, du contexte long et de l’ancrage d’image
- Tous les modèles Llama 4 utilisent l’early fusion afin de permettre le préentraînement conjoint à grande échelle, sans labels, sur du texte et des tokens visuels
- Les benchmarks comparent Llama 4 Maverick et Llama 4 Scout
  - Raisonnement : MMLU Pro affiche 80.5 pour Maverick et 74.3 pour Scout, tandis que GPQA Diamond est à 69.8 pour Maverick et 57.2 pour Scout
  - Code : LiveCodeBench est à 43.4 pour Maverick et 32.8 pour Scout
  - Images multimodales : MMMU est à 73.4 pour Maverick et 69.4 pour Scout, ChartQA à 90.0 pour Maverick et 88.8 pour Scout, et DocVQA à 94.4 pour les deux
  - Multilingue : MMLU Multi est à 84.6 pour Maverick et 74.3 pour Scout
  - Contexte long : MTOB Half Book est à 54.0 / 46.4 pour Maverick et 42.2 / 36.6 pour Scout, tandis que MTOB Full Book est à 50.8 / 46.7 pour Maverick et 39.7 / 36.3 pour Scout
  - Efficacité : le coût par 1M tokens est indiqué entre $0.19 et $0.49 pour les deux
- Selon la méthodologie et les annotations, les résultats Llama correspondent à une évaluation 0-shot avec temperature 0, sans majority voting ni calcul temporel de test en parallèle
- Pour les benchmarks à forte variance comme GPQA Diamond et LiveCodeBench, plusieurs générations sont moyennées afin de réduire l’incertitude
- Les évaluations spécialisées sur le contexte long étant traditionnellement peu publiées pour les modèles généralistes, des résultats d’exécution internes sont partagés
- Le coût de $0.19/Mtok pour Llama 4 Maverick repose sur une estimation mixte 3:1 supposant une inférence distribuée, et il est indiqué qu’une fourchette de $0.30–$0.49/Mtok serait possible sur un hôte unique
Cas d’usage de Stoque et Shopify
- Stoque a transformé son intelligence interne avec Llama afin d’aider les équipes à trouver plus vite des insights, réduire les frictions et travailler plus efficacement à grande échelle
- Les questions répétitives au support technique ont diminué de 50 %, et l’achèvement des tâches d’administration et de support a augmenté de 30 %
- La satisfaction des utilisateurs internes a progressé de 11 %
- Shopify utilise Llama pour la génération de pages produit, la localisation de contenu et l’automatisation du support
- Par rapport au modèle précédent, le débit de traitement des tokens est supérieur de 76 %, et la détection d’intention atteint une précision Macro-F1 de 97.7 %
- La sortie JSON permet de réduire les coûts de calcul de 33 %
- Les garde-fous pour l’IA générative servent à identifier et atténuer en amont les risques potentiels via des protections au niveau système, tout en aidant les développeurs à déployer l’IA générative de manière plus responsable

1 commentaires

GN⁺ 2024-04-19

Réactions sur Hacker News

Liens utiles : https://ai.meta.com/blog/meta-llama-3/, https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi..., https://twitter.com/karpathy/status/1781028605709234613
Meta a aussi publié une console : https://www.meta.ai/
Meta a également annoncé l’intégration de Meta AI dans l’ensemble de ses produits : https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi...
Cela dit, comme ils n’ont pas inclus de comparaison avec GPT-4-Turbo ou Claude Opus, le modèle semble encore à distance des modèles de pointe, et il faudra voir ce que cela donne dans la LLM Arena
- S’ils ne l’ont pas comparé aux meilleurs modèles, c’est sans doute parce qu’ils cherchaient à faire des comparaisons « à niveau égal ». Le modèle 70B est dans la même catégorie que Sonnet, et s’il bat Sonnet, il pourrait s’approcher d’Opus ou de GPT-4 sur la plupart des tâches
  La vraie différence ne se verrait probablement que sur les benchmarks de raisonnement très difficiles. Comme Llama a des poids ouverts, contrairement à Opus, on verra sans doute beaucoup de fine-tuning et de LoRA
- Si Llama-3-400B est au niveau de Claude 3 Opus et autres, les perdants pourraient être l’action Nvidia, OpenAI et Sam, ainsi que Google, tandis que les gagnants pourraient être AMD, Intel, les universités et les développeurs du monde entier
  Si les États et les grands groupes utilisent Llama-3/Llama-4 au lieu de dépenser massivement pour des GPU destinés à entraîner leurs propres modèles, les attentes de croissance autour des GPU pourraient être revues à la baisse ; OpenAI aurait alors moins d’arguments pour lever 100 milliards de dollars, et l’avance de Google dans l’IA deviendrait moins nette. AMD et Intel pourraient se concentrer sur les puces d’inférence IA plutôt que d’essayer de rattraper Nvidia sur les GPU d’entraînement
- Le fait qu’ils l’aient rendu utilisable sans connexion est aussi surprenant. Ce n’est pas quelque chose qu’on attendait de Meta
- Meta indique qu’il entraîne encore des variantes de grande taille plus compétitives
  Leurs plus grands modèles, au-delà de 400B, sont encore en cours d’entraînement, et l’entreprise prévoit de lancer dans les prochains mois plusieurs modèles dotés de multimodalité, de dialogue multilingue, d’une fenêtre de contexte bien plus longue et de capacités globalement supérieures
- J’ai le message « Meta AI isn't available yet in your country » ; je me demande où c’est disponible. J’ai ça depuis la Norvège
Les benchmarks publics sont utiles comme indicateurs approximatifs, mais les développeurs devraient exécuter des benchmarks personnalisés adaptés à leurs propres cas d’usage
Replicate a rapidement mis en place une API Llama 3 https://replicate.com/blog/run-llama-3-with-an-api, et promptfoo https://github.com/typpo/promptfoo permet de comparer Llama 3, Mixtral, GPT, Claude, etc. Par exemple, on peut évaluer avec les mêmes prompts meta/meta-llama-3-8b-instruct, meta/meta-llama-3-70b-instruct de Replicate, gpt-4-turbo d’OpenAI, claude-3-opus-20240229 d’Anthropic, etc.
C’est encore en test, mais sur un ensemble aléatoire de questions de programmation, Llama 3 8B semble plutôt bon. ollama prend maintenant aussi en charge Llama 3 8B, ce qui facilite l’évaluation locale via ollama:chat:llama3
- Il faut être très prudent quand on teste sur des problèmes qui ont de fortes chances d’être déjà entièrement diffusés en ligne
  Un bon test peut être un problème simple mais révélateur en pratique, comme résoudre une équation du second degré pour des valeurs aléatoires de a, b, c. C’est un algorithme que tous les modèles sont censés connaître, et pourtant ils se trompent ; ensuite, ils prétendent parfois avoir vérifié leur réponse tout en répétant la mauvaise. LLAMA 3, lui aussi, après plusieurs signalements d’erreurs, a affirmé avoir « trouvé la solution correcte et l’avoir vérifiée de plusieurs façons », alors que la solution réelle restait fausse comme au départ, sans aucune tentative de vérification
- Il y avait un problème de vocabulaire qui ajoutait assistant à la fin des réponses, mais cela devrait maintenant fonctionner
  On peut l’exécuter avec ollama run llama3, et plusieurs versions quantifiées ainsi que les modèles texte/70B sont en cours de mise en ligne
Llama 3 70B a débuté à la 5e place du célèbre classement LMSYS Chatbot Arena, à égalité avec Claude 2 Sonnet, Bard (Gemini Pro) et Command R+, et devant Claude 2 Haiku ainsi que les versions précédentes de GPT-4
L’incertitude sur les scores reste encore élevée, donc le classement exact demandera du temps et pourrait changer. Llama 3 8B est 12e, à égalité avec Claude 1, Mixtral 8x22B et Qwen-1.5-72B. Le classement le plus récent est disponible sur https://arena.lmsys.org/
Dans le classement réservé à l’anglais, Llama 3 70B reste encore dans le groupe de tête avec GPT-4 et Claude Opus, ce qui est encore plus impressionnant. Cela vient peut-être du fait que le safety tuning est moins agressif qu’avant, donc il y a moins de refus de prompts, mais cela reste malgré tout une amélioration concrètement utile. À ce rythme, le modèle 400B pourrait devenir pratiquement dominant
En lui demandant de générer un rap en chinois, il a produit quelque chose de plutôt correct, mais juste après la fin, la réponse a été supprimée et remplacée par le message disant qu’il « ne comprend pas encore le chinois, mais qu’il y travaille et qu’il enverra un message quand il pourra discuter en chinois »
Il semble que ce soit pareil pour d’autres langues : la génération non anglaise fonctionne, mais une fois terminée, la réponse est effacée et remplacée par le même message d’information
- Il semble y avoir un post-processeur qui évalue la qualité de la réponse après la génération d’un certain nombre de tokens, puis annule la réponse si elle est jugée sous le seuil
- Il suffit de l’exécuter en local. La version locale n’a pas ce genre de garde-fous
- En italien, cela fonctionne, mais il y a toujours un avertissement ajouté disant qu’ils améliorent encore les capacités non anglaises, qu’il peut y avoir des erreurs et que le système est surtout utile en anglais
- C’est étrange que ce bug soit encore présent 12 heures plus tard
Le blog contient beaucoup de bons détails : https://ai.meta.com/blog/meta-llama-3/
Une version 400B est également prévue, et on dirait qu’elle pourrait devenir bien meilleure que GPT-4 et Claude Opus. La dynamique semble favoriser la décentralisation et le logiciel ouvert.
- Ce n’est pas vraiment ce que montrent les chiffres de Claude 3 d’Anthropic https://www.anthropic.com/news/claude-3-family : les résultats de Llama 400B paraissent légèrement inférieurs.
  Cela dit, les benchmarks ont été faits sur un checkpoint intermédiaire et l’entraînement est toujours en cours.
- Il n’a jamais été dit quoi que ce soit de ce genre. Au contraire, les benchmarks publiés le placent en dessous de GPT-4 ou d’Opus.
  Il ne faut pas vouer un culte aux benchmarks, mais rien ne permet d’affirmer qu’il dépasse GPT-4 ou Opus. Comme il s’agit d’un checkpoint intermédiaire, il pourrait éventuellement les dépasser plus tard.
- Je ne vois pas où il est dit que le modèle 400B serait largement meilleur que GPT-4.
- Difficile de parler de décentralisation. On pourra l’exécuter à plusieurs endroits, mais il n’y a qu’une seule source de distribution.
  Et ce n’est pas non plus de l’open source.
- Ce n’est ni open source ni décentralisé.
Un grand merci à Zuck, Yann et à l’équipe Meta d’avoir choisi une approche ouverte en partageant les poids du modèle, le tokenizer, des informations sur les données d’entraînement, etc.
Ce sont eux qui ont le plus contribué à l’explosion de la recherche ouverte, qui permet via des projets comme llama.cpp de faire tourner localement sur du matériel grand public des modèles tout à fait corrects, tout en évitant la censure ou le contrôle.
Je ne cherche pas spécialement à faire des requêtes qui seraient bloquées par OpenAI ou Anthropic, mais je n’aime pas l’idée que ce type de technologie puissante soit caché derrière des murs avec des gatekeepers qui contrôlent son usage. Beaucoup de personnes et d’entreprises croient à l’ouverture, mais quand un acteur disposant de centaines de milliards de dollars de capital, de flux de trésorerie durables et de GPU valant des milliards agit ainsi, l’impact est bien plus grand. Zuck n’était pas obligé de choisir cette voie, et si Facebook avait été dirigé par un manager professionnel façon HBS/McKinsey, il est probable qu’ils n’auraient pas autant ouvert les choses. Le fait de ne pas avoir caché les joyaux de la couronne derrière une API centralisée au nom des risques liés à la sécurité de l’IA profite énormément à tout le monde.
- Quand on écoute les interviews de Zuck, on voit qu’au fond il est toujours un ingénieur. Les autres grandes entreprises tech ont perdu ce type de leadership.
- C’est une bonne chose qu’il n’ait encore que 39 ans et semble encore avoir énormément d’énergie pour diriger l’entreprise. À mes yeux, avoir un fondateur passionné est un grand avantage de Meta par rapport aux autres géants de la tech.
- Il est peu probable qu’ils fassent cela par pure bonté. Il s’agit probablement d’une stratégie visant à faire du modèle un bien générique pour vendre des produits complémentaires.
  Joel Spolsky parlait déjà de cette stratégie il y a longtemps, même s’il n’est pas évident de voir exactement quels compléments Meta peut vendre autour des modèles d’IA. Quoi qu’il en soit, cela ressemble clairement à un choix stratégique.
- C’est parce que c’est un CEO fondateur. Leur passion et leur sincérité sont différentes de celles des MBA de carrière.
  On peut critiquer Zuck sur beaucoup de points, mais un manque de sincérité vis-à-vis de la mission n’en fait pas partie.
- Meta a aussi porté l’Open Compute Project. J’avais rejoint Google à cause de son engagement open source, mais j’ai été très déçu de voir que cette culture ne s’était pas prolongée quand il a fallu construire des solutions à l’échelle exascale.
  Je suis heureux de voir Meta reprendre ici le flambeau, et j’espère que cela continuera.
Il n’y avait pas de comparaison directe avec le GPT-4 de ChatGPT Plus payant, donc j’ai rapproché les chiffres.
Pour Llama 3 8B / Llama 3 70B / GPT-4, on a MMLU à 68.4 / 82.0 / 86.5, GPQA à 34.2 / 39.5 / 49.1, MATH à 30.0 / 50.4 / 72.2, HumanEval à 62.2 / 81.7 / 87.6, et DROP à 58.4 / 79.7 / 85.4.
Le ChatGPT gratuit que la plupart des gens utilisent repose sur GPT-3.5, bien plus faible que GPT-4. Je n’ai pas trouvé d’évaluation globale du dernier GPT-3.5, mais Llama 3 70B semble le battre largement, et même 8B semble s’en approcher. Le fait de pouvoir exécuter et modifier localement un modèle de ce niveau est vraiment passionnant. Les chiffres de GPT-4 proviennent de https://github.com/openai/simple-evals pour gpt-4-turbo-2024-04-09 (chatgpt).
- Il y a aussi en bas de https://ai.meta.com/blog/meta-llama-3/ les résultats du modèle 400B en cours de développement. Il ne semble pas encore tout à fait au niveau.
  Pour Llama 3 400B Base / Instruct, on a MMLU 84.8 / 86.1, GPQA - / 48.0, MATH - / 57.8, HumanEval - / 84.1, et DROP 83.5 / -.
- C’est impressionnant quand on pense que GPT-4 aurait 1.8T paramètres.
- J’attends surtout les modèles fine-tunés ou fusionnés. Beaucoup de développeurs ont produit, à partir de Llama 2, des modèles bien meilleurs que le modèle de base, donc j’espère une dynamique similaire avec cette nouvelle version.
- Je me demande s’il existe déjà des comparaisons avec Mixtral 8x22B. Le monde avance vraiment vite.
- Le score HumanEval est particulièrement prometteur. Et le modèle 400B comme le tuning CodeLlama ne sont pas encore sortis.
  Pour ceux qui veulent l’essayer pour coder dans leur IDE, j’ai ajouté Llama 3 70B à l’outil d’assistance au code https://www.double.bot.
L’interview de Zuck est aussi sortie : https://twitter.com/dwarkesh_sp/status/1780990840179187715
- Vers la 5e minute, il y a un passage intéressant : Zuck explique qu’il y a quelques années, pour construire un moteur de recommandation Reels capable de rivaliser avec TikTok, ils ont acheté énormément de GPU H100.
  Ils avaient sécurisé par précaution deux fois le volume nécessaire, ce qui les a amenés par hasard à faire partie des rares entreprises disposant de la capacité GPU suffisante pour entraîner des LLM à cette échelle.
- Un ou deux ans de MMA semblent lui avoir bien plus apporté en charisme que tout son media training passé. Il paraît beaucoup plus naturel en interview ces temps-ci.
- Le podcast de Dwarkesh est vraiment très bon dans l’ensemble.
La fiche du modèle contient des résultats de benchmark comparés à d’autres modèles Llama, dont Llama 2 : https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md...
Il est impressionnant de voir à quel point les performances de Llama 3 progressent par rapport à Llama 2. C’est vrai même face à Llama 2 13B, et le fait que la fenêtre de contexte ait doublé à 8k devrait aussi ouvrir beaucoup de nouvelles possibilités.
- Pour les modèles instruction-tuned, Llama 3 8B est nettement meilleur que Llama 2 70B.
- Il est dommage que la longueur de contexte de 8k soit bien plus courte que le contexte de 64k de Mixtral 8x22B.
  Cela dit, les métriques de performance publiées sont impressionnantes, et Meta mérite des éloges pour avoir publié ces modèles.

Sortie des modèles de langage Llama 3 de Meta

Famille de modèles Llama et options par version

Llama 4 : multimodal natif et contexte de 10M

Llama 3 : une gamme de modèles selon la taille et l’usage

Indicateurs de performance et résultats concrets d’adoption

Benchmarks de Llama 4 et conditions d’évaluation

Cas d’usage de Stoque et Shopify

À lire aussi

1 commentaires

Réactions sur Hacker News