Meta lance Llama 4

(ai.meta.com)

16 points par GN⁺ 2025-04-06 | 2 commentaires | Partager sur WhatsApp

Scout, Maverick et Behemoth : trois modèles qui composent le premier modèle multimodal natif à poids ouverts
- Tous les modèles sont multimodaux et comprennent image + texte

Llama 4 Scout

17B de paramètres actifs + 16 experts
Capacité de traitement de contexte ultra-long prenant en charge 10M de tokens
Modèle léger et efficace pouvant fonctionner sur un seul GPU (H100)
Performances supérieures à Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1
Excellentes performances pour l’alignement d’images, le résumé multi-documents, l’analyse de larges bases de code, etc.

Llama 4 Maverick

17B de paramètres actifs + 128 experts + 400B de paramètres au total
Performances supérieures à GPT-4o et Gemini 2.0 Flash
Excellent dans tous les domaines : reasoning, code, compréhension d’images, etc.
Score ELO de 1417 (selon LMArena)
Structure de coûts efficace au regard des performances élevées

Llama 4 Behemoth (aperçu)

288B de paramètres actifs + 16 experts + environ 2T de paramètres au total
Toujours en cours d’entraînement, mais avec des performances supérieures à GPT-4.5, Claude 3.7 et Gemini 2.0 Pro
Utilisé comme modèle enseignant dans le pré-entraînement du modèle Maverick

Scout et Maverick sont téléchargeables dès aujourd’hui sur llama.com et Hugging Face

# Caractéristiques techniques

Architecture Mixture of Experts (MoE)

Au lieu d’utiliser tous les paramètres, le modèle n’active qu’une partie des experts, maximisant ainsi l’efficacité de calcul
Mise en œuvre d’une structure d’entraînement offrant inférence rapide, coût réduit et haute qualité

Multimodal natif & Early Fusion

Les données texte et vision sont intégrées dès le départ pour un apprentissage conjoint
Jusqu’à 48 images peuvent être fournies en entrée ; les tests ont été menés avec succès jusqu’à 8 images

Traitement de contexte ultra-long (10M tokens)

Le modèle Scout explore la possibilité d’un « contexte infini » grâce à l’architecture iRoPE (interleaved Rotary Position Embedding)
Excellente capacité de généralisation sur la longueur pour le texte et le code

Techniques d’entraînement MetaP & FP8

Nouvelle technique de réglage des hyperparamètres pour un entraînement rapide et efficace
Taux élevé d’utilisation des FLOPs avec la précision FP8 (Behemoth : 390 TFLOPs/GPU)

# Stratégie de post-traitement et d’entraînement RL

Pipeline de post-traitement en trois étapes : SFT → RL en ligne → DPO
Les données faciles sont supprimées, et l’entraînement se concentre sur des prompts de difficulté moyenne à élevée
Adoption d’une stratégie de RL en ligne continue : amélioration des performances et maximisation de l’efficacité d’entraînement

# Sécurité et considérations éthiques

Stratégie de protection multicouche

Filtrage et contrôle des données avant et après l’entraînement
Llama Guard : vérification de la sécurité des entrées/sorties
Prompt Guard : détection des jailbreaks et des attaques par injection
CyberSecEval : mise à disposition d’un outil d’évaluation des risques de sécurité de l’IA générative

Automatisation de la détection quantitative des risques

Introduction de GOAT (Generative Offensive Agent Testing)
- Simulation de scénarios d’attaquants intermédiaires
- Détection précoce des risques via des tests automatisés en plusieurs tours

Efforts de réduction des biais

Llama 4 présente des améliorations majeures des biais par rapport à Llama 3
- Taux de refus de réponse : 7 % → moins de 2 %
- Déséquilibre des réponses < 1 %
- Maintien d’un niveau d’équilibre politique des réponses comparable à Grok

# Guide d’utilisation des modèles Llama 4

Scout et Maverick sont tous deux téléchargeables et utilisables
- llama.com
- Hugging Face
Intégration de Llama 4 dans le service Meta AI :
- WhatsApp, Messenger, Instagram DM, meta.ai

# Calendrier à venir

LlamaCon 2025, qui présentera davantage de détails techniques et la vision du projet, se tiendra le 29 avril
- S’inscrire à LlamaCon

2 commentaires

jjw951215 2025-04-07

Cela semble adapté à l’APPLE SILICON disposant d’une marge de RAM, ou aux systèmes de type NPU. Pour l’utiliser sur un serveur GPU pur, le fait que le modèle aux spécifications minimales nécessite une quantification int4 sur H100 est un peu…

GN⁺ 2025-04-06

Discussion sur Hacker News

Aperçu des modèles Llama 4 :
- Llama 4 Scout et Llama 4 Maverick utilisent tous deux une architecture Mixture-of-Experts (MoE) avec 17B de paramètres actifs chacun
- Ils disposent de capacités multimodales prenant en charge les entrées texte et image
- Parmi les principaux résultats : une longueur de contexte de premier plan dans l’industrie, de solides performances en code/raisonnement, et une meilleure prise en charge multilingue
- La date de coupure des connaissances est août 2024
Llama 4 Scout :
- 17B de paramètres actifs, 16 experts, 109B au total
- Adapté à un seul GPU H100 (quantification INT4)
- Fenêtre de contexte de 10M tokens
- Offre de meilleures performances sur les tâches multimodales que les précédentes versions de Llama tout en restant économe en ressources
- Utilise l’architecture iRoPE pour une attention efficace sur les contextes longs
- Testé avec jusqu’à 8 images par prompt
Llama 4 Maverick :
- 17B de paramètres actifs, 128 experts, 400B au total
- Fenêtre de contexte de 1M tokens
- S’exécute sur un hôte H100 DGX plutôt que sur un GPU unique, ou peut être distribué pour une meilleure efficacité
- Dépasse GPT-4o et Gemini 2.0 Flash sur les tests de code, de raisonnement et multilingues, tout en conservant un coût compétitif
- Conserve de fortes capacités de compréhension d’image et de raisonnement fondé
Llama 4 Behemoth (aperçu) :
- 288B de paramètres actifs, 16 experts, près de 2T au total
- Toujours en cours d’entraînement, pas encore publié
- Dépasse GPT-4.5, Claude Sonnet 3.7 et Gemini 2.0 Pro sur des benchmarks STEM (par ex. MATH-500, GPQA Diamond)
- Sert de modèle « enseignant » pour Scout et Maverick via une co-distillation
Autres points :
- Architecture MoE : seuls 17B paramètres sont activés par token, ce qui réduit le coût d’inférence
- Multimodalité native : encodeur texte + vision unifié, pré-entraîné sur de grands volumes de données non annotées
Fil résumé par Llama 4 Maverick :
- hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-maverick -o max_tokens 20000
- Résultat : https://gist.github.com/simonw/016ea0fd83fc499f046a94827f9b4946
Le résultat obtenu avec Scout était une sortie complètement inutilisable :
- hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-scout -o max_tokens 20000
- Résultat : https://gist.github.com/simonw/d01cc991d478939e87487d362a8f881f
Scout a aussi été exécuté directement via Groq, mais avec une limite de sortie de 2048 :
- hn-summary.sh 43595585 -m groq/meta-llama/llama-4-scout-17b-16e-instruct -o max_tokens 2048
- Résultat : https://gist.github.com/simonw/a205c5fc131a1d4e9cd6c432a07feedb
Les résumés d’autres modèles étaient plus proches du prompt système. Par exemple, c’était bien meilleur que Gemini 2.5 Pro :
- https://gist.github.com/simonw/f21ecc7fb2aa13ff682d4ffa11ddcbfd
Le petit modèle Scout est très attractif sur Apple Silicon. Il fait 109B, mais est réparti sur 16 experts. Le traitement réel se fait sur 17B. Sur un MacBook Pro M4 Max, en interrogeant un modèle local 7B (qwen 2.5 7B instruct) avec un contexte de 2k, on obtenait ~60 tokens/s. Il pourrait donc atteindre 30 tokens/s. Le temps jusqu’au premier token peut toutefois rester lent
Le modèle dispose d’une fenêtre de contexte de 10M tokens. On ne sait pas exactement dans quelle mesure il peut réellement suivre un contexte de cette taille, mais le simple fait de ne pas être limité à ~32k est déjà excellent
Tous les grands LLM ont des problèmes de biais. Ils penchent notamment à gauche sur les sujets politiques et sociaux. Cela peut venir du type de données d’entraînement disponibles sur Internet
Le prompt proposé évite les restrictions du type de celles des releases d’OpenAI :
- Il comprend l’intention de l’utilisateur et n’essaie pas d’être excessivement serviable
- Il ne refuse pas les prompts politiques
- Llama 4 possède des connaissances jusqu’en août 2024 et parle plusieurs langues
La sortie a eu lieu seulement une heure après une autre discussion à propos de Meta :
- Quelle que soit votre confiance dans les LLM, faire confiance aux propos de LeCun n’est probablement pas une bonne idée
- Le laboratoire d’IA dirigé par LeCun a plusieurs problèmes
Disponible sur Groq :
- Llama 4 Scout tourne à plus de 460 tokens/s et Llama 4 Maverick est lancé aujourd’hui
- Llama 4 Scout : 0,11 $ / M tokens en entrée et 0,34 $ / M tokens en sortie
- Llama 4 Maverick : 0,50 $ / M tokens en entrée et 0,77 $ / M tokens en sortie
C’est une époque vraiment passionnante. Cela rappelle la période où les frameworks JavaScript explosaient. À l’époque, on avait l’impression de se demander « encore un autre framework à apprendre ? », mais aujourd’hui, l’innovation avance de nouveau très vite, et cette fois cela ressemble à une aventure exaltante à laquelle nous pouvons participer