- Scout, Maverick et Behemoth : trois modèles qui composent le premier modèle multimodal natif à poids ouverts
- Tous les modèles sont multimodaux et comprennent image + texte
Llama 4 Scout
- 17B de paramètres actifs + 16 experts
- Capacité de traitement de contexte ultra-long prenant en charge 10M de tokens
- Modèle léger et efficace pouvant fonctionner sur un seul GPU (H100)
- Performances supérieures à Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1
- Excellentes performances pour l’alignement d’images, le résumé multi-documents, l’analyse de larges bases de code, etc.
Llama 4 Maverick
- 17B de paramètres actifs + 128 experts + 400B de paramètres au total
- Performances supérieures à GPT-4o et Gemini 2.0 Flash
- Excellent dans tous les domaines : reasoning, code, compréhension d’images, etc.
- Score ELO de 1417 (selon LMArena)
- Structure de coûts efficace au regard des performances élevées
Llama 4 Behemoth (aperçu)
- 288B de paramètres actifs + 16 experts + environ 2T de paramètres au total
- Toujours en cours d’entraînement, mais avec des performances supérieures à GPT-4.5, Claude 3.7 et Gemini 2.0 Pro
- Utilisé comme modèle enseignant dans le pré-entraînement du modèle Maverick
# Caractéristiques techniques
Architecture Mixture of Experts (MoE)
- Au lieu d’utiliser tous les paramètres, le modèle n’active qu’une partie des experts, maximisant ainsi l’efficacité de calcul
- Mise en œuvre d’une structure d’entraînement offrant inférence rapide, coût réduit et haute qualité
Multimodal natif & Early Fusion
- Les données texte et vision sont intégrées dès le départ pour un apprentissage conjoint
- Jusqu’à 48 images peuvent être fournies en entrée ; les tests ont été menés avec succès jusqu’à 8 images
Traitement de contexte ultra-long (10M tokens)
- Le modèle Scout explore la possibilité d’un « contexte infini » grâce à l’architecture iRoPE (interleaved Rotary Position Embedding)
- Excellente capacité de généralisation sur la longueur pour le texte et le code
Techniques d’entraînement MetaP & FP8
- Nouvelle technique de réglage des hyperparamètres pour un entraînement rapide et efficace
- Taux élevé d’utilisation des FLOPs avec la précision FP8 (Behemoth : 390 TFLOPs/GPU)
# Stratégie de post-traitement et d’entraînement RL
- Pipeline de post-traitement en trois étapes : SFT → RL en ligne → DPO
- Les données faciles sont supprimées, et l’entraînement se concentre sur des prompts de difficulté moyenne à élevée
- Adoption d’une stratégie de RL en ligne continue : amélioration des performances et maximisation de l’efficacité d’entraînement
# Sécurité et considérations éthiques
Stratégie de protection multicouche
- Filtrage et contrôle des données avant et après l’entraînement
- Llama Guard : vérification de la sécurité des entrées/sorties
- Prompt Guard : détection des jailbreaks et des attaques par injection
- CyberSecEval : mise à disposition d’un outil d’évaluation des risques de sécurité de l’IA générative
Automatisation de la détection quantitative des risques
- Introduction de GOAT (Generative Offensive Agent Testing)
- Simulation de scénarios d’attaquants intermédiaires
- Détection précoce des risques via des tests automatisés en plusieurs tours
Efforts de réduction des biais
- Llama 4 présente des améliorations majeures des biais par rapport à Llama 3
- Taux de refus de réponse : 7 % → moins de 2 %
- Déséquilibre des réponses < 1 %
- Maintien d’un niveau d’équilibre politique des réponses comparable à Grok
# Guide d’utilisation des modèles Llama 4
- Scout et Maverick sont tous deux téléchargeables et utilisables
- Intégration de Llama 4 dans le service Meta AI :
- WhatsApp, Messenger, Instagram DM, meta.ai
# Calendrier à venir
- LlamaCon 2025, qui présentera davantage de détails techniques et la vision du projet, se tiendra le 29 avril
2 commentaires
Cela semble adapté à l’APPLE SILICON disposant d’une marge de RAM, ou aux systèmes de type NPU. Pour l’utiliser sur un serveur GPU pur, le fait que le modèle aux spécifications minimales nécessite une quantification int4 sur H100 est un peu…
Discussion sur Hacker News
Aperçu des modèles Llama 4 :
Llama 4 Scout :
Llama 4 Maverick :
Llama 4 Behemoth (aperçu) :
Autres points :
Fil résumé par Llama 4 Maverick :
hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-maverick -o max_tokens 20000Le résultat obtenu avec Scout était une sortie complètement inutilisable :
hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-scout -o max_tokens 20000Scout a aussi été exécuté directement via Groq, mais avec une limite de sortie de 2048 :
hn-summary.sh 43595585 -m groq/meta-llama/llama-4-scout-17b-16e-instruct -o max_tokens 2048Les résumés d’autres modèles étaient plus proches du prompt système. Par exemple, c’était bien meilleur que Gemini 2.5 Pro :
Le petit modèle Scout est très attractif sur Apple Silicon. Il fait 109B, mais est réparti sur 16 experts. Le traitement réel se fait sur 17B. Sur un MacBook Pro M4 Max, en interrogeant un modèle local 7B (qwen 2.5 7B instruct) avec un contexte de 2k, on obtenait ~60 tokens/s. Il pourrait donc atteindre 30 tokens/s. Le temps jusqu’au premier token peut toutefois rester lent
Le modèle dispose d’une fenêtre de contexte de 10M tokens. On ne sait pas exactement dans quelle mesure il peut réellement suivre un contexte de cette taille, mais le simple fait de ne pas être limité à ~32k est déjà excellent
Tous les grands LLM ont des problèmes de biais. Ils penchent notamment à gauche sur les sujets politiques et sociaux. Cela peut venir du type de données d’entraînement disponibles sur Internet
Le prompt proposé évite les restrictions du type de celles des releases d’OpenAI :
La sortie a eu lieu seulement une heure après une autre discussion à propos de Meta :
Disponible sur Groq :
C’est une époque vraiment passionnante. Cela rappelle la période où les frameworks JavaScript explosaient. À l’époque, on avait l’impression de se demander « encore un autre framework à apprendre ? », mais aujourd’hui, l’innovation avance de nouveau très vite, et cette fois cela ressemble à une aventure exaltante à laquelle nous pouvons participer