Sortie des modèles de langage Llama 3 de Meta
(llama.meta.com)- La page Llama de Meta présente la famille de modèles Llama comme une IA open source pensée pour la facilité de déploiement, l’efficacité en coût, les performances et le passage à l’échelle massif, en couvrant à la fois les gammes Llama 4 et Llama 3
- Llama 4 Maverick et Llama 4 Scout sont des modèles multimodaux natifs basés sur l’early fusion, préentraînés conjointement sur du texte et des tokens visuels, et mettent tous deux en avant un contexte de 10M tokens
- La gamme Llama 3 se décline en 3.1, 3.2 et 3.3, avec des options en 8B, 70B, 405B, 1B, 3B, 11B, 90B et 70B selon la taille et les usages visés, entre texte, edge et multimodal
- Les comparaisons de performances incluent MMLU Pro, GPQA Diamond, LiveCodeBench, MMMU, ChartQA, DocVQA, MMLU Multi et MTOB, et Llama 4 Maverick atteint 80.5 sur MMLU Pro contre 74.3 pour Scout
- Dans les cas d’usage de Stoque et Shopify, les résultats rapportés incluent une baisse de 50 % des questions répétitives au support technique, une hausse de 11 % de la satisfaction interne, une augmentation de 76 % du débit de traitement des tokens et une réduction de 33 % des coûts de calcul grâce à une sortie JSON
Famille de modèles Llama et options par version
- Llama est une famille de modèles que l’on peut concevoir selon ses propres contraintes, visant la simplicité de déploiement, l’efficacité en coût, les performances et le passage à l’échelle jusqu’à des milliards d’utilisateurs
- Les principaux axes des derniers modèles Llama sont le multimodal natif, le raisonnement avancé et les longues fenêtres de contexte
- Les model cards et formats de prompt sont disponibles dans Model overview
-
Llama 4 : multimodal natif et contexte de 10M
- Llama 4 est une famille de modèles multimodaux natifs utilisant l’early fusion pour préentraîner ensemble, sans labels, des données textuelles et visuelles
- Llama 4 Maverick prend en charge la compréhension des images et du texte, et traite des tâches de long format avec un contexte de 10M tokens
- Ses principaux usages concernent la mémoire, la personnalisation et les applications multimodales
- Llama 4 Scout est un modèle fournissant des capacités textuelles et de vision, mis en avant pour son efficacité sur un seul GPU H100 et sa fenêtre de contexte de 10M
- L’analyse de documents longs est présentée comme l’un de ses principaux cas d’usage
- Les détails sont fournis dans la documentation des modèles Llama 4
-
Llama 3 : une gamme de modèles selon la taille et l’usage
- Llama 3 est une famille de modèles d’IA open source pouvant être fine-tunés, distillés et déployés partout
- Llama 3.3 est un grand modèle de langage open source multilingue proposé en 70B, présenté comme offrant des performances et une qualité de niveau 405B à moindre coût
- Il est adapté aux usages textuels comme la génération de données synthétiques, avec plus de détails dans la documentation des modèles Llama 3.3
- Llama 3.2 est une famille de modèles flexible et économique pensée pour les usages edge
- Les versions 1B et 3B sont légères et économiques, et peuvent s’exécuter partout
- Les versions 11B et 90B sont des modèles multimodaux capables de raisonner sur des images haute résolution et de produire du texte
- Les détails sont fournis dans la documentation des modèles Llama 3.2
- Llama 3.1 est un modèle de fondation ouvert axé sur la flexibilité et le contrôle, disponible en 8B, 70B et 405B
- Il couvre les connaissances générales, l’ajustabilité, les mathématiques, l’usage d’outils et la traduction multilingue, et sert à des usages comme le résumé de texte, les agents multilingues et le code
- Les détails sont disponibles dans la documentation des modèles Llama 3.1
Indicateurs de performance et résultats concrets d’adoption
-
Benchmarks de Llama 4 et conditions d’évaluation
- Les capacités de Llama 4 sont résumées autour du multimodal natif, du contexte long et de l’ancrage d’image
- Tous les modèles Llama 4 utilisent l’early fusion afin de permettre le préentraînement conjoint à grande échelle, sans labels, sur du texte et des tokens visuels
- Les benchmarks comparent Llama 4 Maverick et Llama 4 Scout
- Raisonnement : MMLU Pro affiche 80.5 pour Maverick et 74.3 pour Scout, tandis que GPQA Diamond est à 69.8 pour Maverick et 57.2 pour Scout
- Code : LiveCodeBench est à 43.4 pour Maverick et 32.8 pour Scout
- Images multimodales : MMMU est à 73.4 pour Maverick et 69.4 pour Scout, ChartQA à 90.0 pour Maverick et 88.8 pour Scout, et DocVQA à 94.4 pour les deux
- Multilingue : MMLU Multi est à 84.6 pour Maverick et 74.3 pour Scout
- Contexte long : MTOB Half Book est à 54.0 / 46.4 pour Maverick et 42.2 / 36.6 pour Scout, tandis que MTOB Full Book est à 50.8 / 46.7 pour Maverick et 39.7 / 36.3 pour Scout
- Efficacité : le coût par 1M tokens est indiqué entre $0.19 et $0.49 pour les deux
- Selon la méthodologie et les annotations, les résultats Llama correspondent à une évaluation 0-shot avec temperature 0, sans majority voting ni calcul temporel de test en parallèle
- Pour les benchmarks à forte variance comme GPQA Diamond et LiveCodeBench, plusieurs générations sont moyennées afin de réduire l’incertitude
- Les évaluations spécialisées sur le contexte long étant traditionnellement peu publiées pour les modèles généralistes, des résultats d’exécution internes sont partagés
- Le coût de $0.19/Mtok pour Llama 4 Maverick repose sur une estimation mixte 3:1 supposant une inférence distribuée, et il est indiqué qu’une fourchette de $0.30–$0.49/Mtok serait possible sur un hôte unique
-
Cas d’usage de Stoque et Shopify
- Stoque a transformé son intelligence interne avec Llama afin d’aider les équipes à trouver plus vite des insights, réduire les frictions et travailler plus efficacement à grande échelle
- Les questions répétitives au support technique ont diminué de 50 %, et l’achèvement des tâches d’administration et de support a augmenté de 30 %
- La satisfaction des utilisateurs internes a progressé de 11 %
- Shopify utilise Llama pour la génération de pages produit, la localisation de contenu et l’automatisation du support
- Par rapport au modèle précédent, le débit de traitement des tokens est supérieur de 76 %, et la détection d’intention atteint une précision Macro-F1 de 97.7 %
- La sortie JSON permet de réduire les coûts de calcul de 33 %
- Les garde-fous pour l’IA générative servent à identifier et atténuer en amont les risques potentiels via des protections au niveau système, tout en aidant les développeurs à déployer l’IA générative de manière plus responsable
1 commentaires
Réactions sur Hacker News
Liens utiles : https://ai.meta.com/blog/meta-llama-3/, https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi..., https://twitter.com/karpathy/status/1781028605709234613
Meta a aussi publié une console : https://www.meta.ai/
Meta a également annoncé l’intégration de Meta AI dans l’ensemble de ses produits : https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi...
Cela dit, comme ils n’ont pas inclus de comparaison avec GPT-4-Turbo ou Claude Opus, le modèle semble encore à distance des modèles de pointe, et il faudra voir ce que cela donne dans la LLM Arena
La vraie différence ne se verrait probablement que sur les benchmarks de raisonnement très difficiles. Comme Llama a des poids ouverts, contrairement à Opus, on verra sans doute beaucoup de fine-tuning et de LoRA
Si les États et les grands groupes utilisent Llama-3/Llama-4 au lieu de dépenser massivement pour des GPU destinés à entraîner leurs propres modèles, les attentes de croissance autour des GPU pourraient être revues à la baisse ; OpenAI aurait alors moins d’arguments pour lever 100 milliards de dollars, et l’avance de Google dans l’IA deviendrait moins nette. AMD et Intel pourraient se concentrer sur les puces d’inférence IA plutôt que d’essayer de rattraper Nvidia sur les GPU d’entraînement
Leurs plus grands modèles, au-delà de 400B, sont encore en cours d’entraînement, et l’entreprise prévoit de lancer dans les prochains mois plusieurs modèles dotés de multimodalité, de dialogue multilingue, d’une fenêtre de contexte bien plus longue et de capacités globalement supérieures
Les benchmarks publics sont utiles comme indicateurs approximatifs, mais les développeurs devraient exécuter des benchmarks personnalisés adaptés à leurs propres cas d’usage
Replicate a rapidement mis en place une API Llama 3 https://replicate.com/blog/run-llama-3-with-an-api, et promptfoo https://github.com/typpo/promptfoo permet de comparer Llama 3, Mixtral, GPT, Claude, etc. Par exemple, on peut évaluer avec les mêmes prompts
meta/meta-llama-3-8b-instruct,meta/meta-llama-3-70b-instructde Replicate,gpt-4-turbod’OpenAI,claude-3-opus-20240229d’Anthropic, etc.C’est encore en test, mais sur un ensemble aléatoire de questions de programmation, Llama 3 8B semble plutôt bon. ollama prend maintenant aussi en charge Llama 3 8B, ce qui facilite l’évaluation locale via
ollama:chat:llama3Un bon test peut être un problème simple mais révélateur en pratique, comme résoudre une équation du second degré pour des valeurs aléatoires de a, b, c. C’est un algorithme que tous les modèles sont censés connaître, et pourtant ils se trompent ; ensuite, ils prétendent parfois avoir vérifié leur réponse tout en répétant la mauvaise. LLAMA 3, lui aussi, après plusieurs signalements d’erreurs, a affirmé avoir « trouvé la solution correcte et l’avoir vérifiée de plusieurs façons », alors que la solution réelle restait fausse comme au départ, sans aucune tentative de vérification
assistantà la fin des réponses, mais cela devrait maintenant fonctionnerOn peut l’exécuter avec
ollama run llama3, et plusieurs versions quantifiées ainsi que les modèles texte/70B sont en cours de mise en ligneLlama 3 70B a débuté à la 5e place du célèbre classement LMSYS Chatbot Arena, à égalité avec Claude 2 Sonnet, Bard (Gemini Pro) et Command R+, et devant Claude 2 Haiku ainsi que les versions précédentes de GPT-4
L’incertitude sur les scores reste encore élevée, donc le classement exact demandera du temps et pourrait changer. Llama 3 8B est 12e, à égalité avec Claude 1, Mixtral 8x22B et Qwen-1.5-72B. Le classement le plus récent est disponible sur https://arena.lmsys.org/
Dans le classement réservé à l’anglais, Llama 3 70B reste encore dans le groupe de tête avec GPT-4 et Claude Opus, ce qui est encore plus impressionnant. Cela vient peut-être du fait que le safety tuning est moins agressif qu’avant, donc il y a moins de refus de prompts, mais cela reste malgré tout une amélioration concrètement utile. À ce rythme, le modèle 400B pourrait devenir pratiquement dominant
En lui demandant de générer un rap en chinois, il a produit quelque chose de plutôt correct, mais juste après la fin, la réponse a été supprimée et remplacée par le message disant qu’il « ne comprend pas encore le chinois, mais qu’il y travaille et qu’il enverra un message quand il pourra discuter en chinois »
Il semble que ce soit pareil pour d’autres langues : la génération non anglaise fonctionne, mais une fois terminée, la réponse est effacée et remplacée par le même message d’information
Le blog contient beaucoup de bons détails : https://ai.meta.com/blog/meta-llama-3/
Une version 400B est également prévue, et on dirait qu’elle pourrait devenir bien meilleure que GPT-4 et Claude Opus. La dynamique semble favoriser la décentralisation et le logiciel ouvert.
Cela dit, les benchmarks ont été faits sur un checkpoint intermédiaire et l’entraînement est toujours en cours.
Il ne faut pas vouer un culte aux benchmarks, mais rien ne permet d’affirmer qu’il dépasse GPT-4 ou Opus. Comme il s’agit d’un checkpoint intermédiaire, il pourrait éventuellement les dépasser plus tard.
Et ce n’est pas non plus de l’open source.
Un grand merci à Zuck, Yann et à l’équipe Meta d’avoir choisi une approche ouverte en partageant les poids du modèle, le tokenizer, des informations sur les données d’entraînement, etc.
Ce sont eux qui ont le plus contribué à l’explosion de la recherche ouverte, qui permet via des projets comme llama.cpp de faire tourner localement sur du matériel grand public des modèles tout à fait corrects, tout en évitant la censure ou le contrôle.
Je ne cherche pas spécialement à faire des requêtes qui seraient bloquées par OpenAI ou Anthropic, mais je n’aime pas l’idée que ce type de technologie puissante soit caché derrière des murs avec des gatekeepers qui contrôlent son usage. Beaucoup de personnes et d’entreprises croient à l’ouverture, mais quand un acteur disposant de centaines de milliards de dollars de capital, de flux de trésorerie durables et de GPU valant des milliards agit ainsi, l’impact est bien plus grand. Zuck n’était pas obligé de choisir cette voie, et si Facebook avait été dirigé par un manager professionnel façon HBS/McKinsey, il est probable qu’ils n’auraient pas autant ouvert les choses. Le fait de ne pas avoir caché les joyaux de la couronne derrière une API centralisée au nom des risques liés à la sécurité de l’IA profite énormément à tout le monde.
Joel Spolsky parlait déjà de cette stratégie il y a longtemps, même s’il n’est pas évident de voir exactement quels compléments Meta peut vendre autour des modèles d’IA. Quoi qu’il en soit, cela ressemble clairement à un choix stratégique.
On peut critiquer Zuck sur beaucoup de points, mais un manque de sincérité vis-à-vis de la mission n’en fait pas partie.
Je suis heureux de voir Meta reprendre ici le flambeau, et j’espère que cela continuera.
Il n’y avait pas de comparaison directe avec le GPT-4 de ChatGPT Plus payant, donc j’ai rapproché les chiffres.
Pour Llama 3 8B / Llama 3 70B / GPT-4, on a MMLU à 68.4 / 82.0 / 86.5, GPQA à 34.2 / 39.5 / 49.1, MATH à 30.0 / 50.4 / 72.2, HumanEval à 62.2 / 81.7 / 87.6, et DROP à 58.4 / 79.7 / 85.4.
Le ChatGPT gratuit que la plupart des gens utilisent repose sur GPT-3.5, bien plus faible que GPT-4. Je n’ai pas trouvé d’évaluation globale du dernier GPT-3.5, mais Llama 3 70B semble le battre largement, et même 8B semble s’en approcher. Le fait de pouvoir exécuter et modifier localement un modèle de ce niveau est vraiment passionnant. Les chiffres de GPT-4 proviennent de https://github.com/openai/simple-evals pour
gpt-4-turbo-2024-04-09 (chatgpt).Pour Llama 3 400B Base / Instruct, on a MMLU 84.8 / 86.1, GPQA - / 48.0, MATH - / 57.8, HumanEval - / 84.1, et DROP 83.5 / -.
Pour ceux qui veulent l’essayer pour coder dans leur IDE, j’ai ajouté Llama 3 70B à l’outil d’assistance au code https://www.double.bot.
L’interview de Zuck est aussi sortie : https://twitter.com/dwarkesh_sp/status/1780990840179187715
Ils avaient sécurisé par précaution deux fois le volume nécessaire, ce qui les a amenés par hasard à faire partie des rares entreprises disposant de la capacité GPU suffisante pour entraîner des LLM à cette échelle.
La fiche du modèle contient des résultats de benchmark comparés à d’autres modèles Llama, dont Llama 2 : https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md...
Il est impressionnant de voir à quel point les performances de Llama 3 progressent par rapport à Llama 2. C’est vrai même face à Llama 2 13B, et le fait que la fenêtre de contexte ait doublé à 8k devrait aussi ouvrir beaucoup de nouvelles possibilités.
Cela dit, les métriques de performance publiées sont impressionnantes, et Meta mérite des éloges pour avoir publié ces modèles.