16 points par GN⁺ 2025-04-06 | 2 commentaires | Partager sur WhatsApp
  • Scout, Maverick et Behemoth : trois modèles qui composent le premier modèle multimodal natif à poids ouverts
    • Tous les modèles sont multimodaux et comprennent image + texte

Llama 4 Scout

  • 17B de paramètres actifs + 16 experts
  • Capacité de traitement de contexte ultra-long prenant en charge 10M de tokens
  • Modèle léger et efficace pouvant fonctionner sur un seul GPU (H100)
  • Performances supérieures à Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1
  • Excellentes performances pour l’alignement d’images, le résumé multi-documents, l’analyse de larges bases de code, etc.

Llama 4 Maverick

  • 17B de paramètres actifs + 128 experts + 400B de paramètres au total
  • Performances supérieures à GPT-4o et Gemini 2.0 Flash
  • Excellent dans tous les domaines : reasoning, code, compréhension d’images, etc.
  • Score ELO de 1417 (selon LMArena)
  • Structure de coûts efficace au regard des performances élevées

Llama 4 Behemoth (aperçu)

  • 288B de paramètres actifs + 16 experts + environ 2T de paramètres au total
  • Toujours en cours d’entraînement, mais avec des performances supérieures à GPT-4.5, Claude 3.7 et Gemini 2.0 Pro
  • Utilisé comme modèle enseignant dans le pré-entraînement du modèle Maverick

# Caractéristiques techniques

Architecture Mixture of Experts (MoE)

  • Au lieu d’utiliser tous les paramètres, le modèle n’active qu’une partie des experts, maximisant ainsi l’efficacité de calcul
  • Mise en œuvre d’une structure d’entraînement offrant inférence rapide, coût réduit et haute qualité

Multimodal natif & Early Fusion

  • Les données texte et vision sont intégrées dès le départ pour un apprentissage conjoint
  • Jusqu’à 48 images peuvent être fournies en entrée ; les tests ont été menés avec succès jusqu’à 8 images

Traitement de contexte ultra-long (10M tokens)

  • Le modèle Scout explore la possibilité d’un « contexte infini » grâce à l’architecture iRoPE (interleaved Rotary Position Embedding)
  • Excellente capacité de généralisation sur la longueur pour le texte et le code

Techniques d’entraînement MetaP & FP8

  • Nouvelle technique de réglage des hyperparamètres pour un entraînement rapide et efficace
  • Taux élevé d’utilisation des FLOPs avec la précision FP8 (Behemoth : 390 TFLOPs/GPU)

# Stratégie de post-traitement et d’entraînement RL

  • Pipeline de post-traitement en trois étapes : SFT → RL en ligne → DPO
  • Les données faciles sont supprimées, et l’entraînement se concentre sur des prompts de difficulté moyenne à élevée
  • Adoption d’une stratégie de RL en ligne continue : amélioration des performances et maximisation de l’efficacité d’entraînement

# Sécurité et considérations éthiques

Stratégie de protection multicouche

  • Filtrage et contrôle des données avant et après l’entraînement
  • Llama Guard : vérification de la sécurité des entrées/sorties
  • Prompt Guard : détection des jailbreaks et des attaques par injection
  • CyberSecEval : mise à disposition d’un outil d’évaluation des risques de sécurité de l’IA générative

Automatisation de la détection quantitative des risques

  • Introduction de GOAT (Generative Offensive Agent Testing)
    • Simulation de scénarios d’attaquants intermédiaires
    • Détection précoce des risques via des tests automatisés en plusieurs tours

Efforts de réduction des biais

  • Llama 4 présente des améliorations majeures des biais par rapport à Llama 3
    • Taux de refus de réponse : 7 % → moins de 2 %
    • Déséquilibre des réponses < 1 %
    • Maintien d’un niveau d’équilibre politique des réponses comparable à Grok

# Guide d’utilisation des modèles Llama 4

  • Scout et Maverick sont tous deux téléchargeables et utilisables
  • Intégration de Llama 4 dans le service Meta AI :
    • WhatsApp, Messenger, Instagram DM, meta.ai

# Calendrier à venir

  • LlamaCon 2025, qui présentera davantage de détails techniques et la vision du projet, se tiendra le 29 avril

2 commentaires

 
jjw951215 2025-04-07

Cela semble adapté à l’APPLE SILICON disposant d’une marge de RAM, ou aux systèmes de type NPU. Pour l’utiliser sur un serveur GPU pur, le fait que le modèle aux spécifications minimales nécessite une quantification int4 sur H100 est un peu…

 
GN⁺ 2025-04-06
Discussion sur Hacker News
  • Aperçu des modèles Llama 4 :

    • Llama 4 Scout et Llama 4 Maverick utilisent tous deux une architecture Mixture-of-Experts (MoE) avec 17B de paramètres actifs chacun
    • Ils disposent de capacités multimodales prenant en charge les entrées texte et image
    • Parmi les principaux résultats : une longueur de contexte de premier plan dans l’industrie, de solides performances en code/raisonnement, et une meilleure prise en charge multilingue
    • La date de coupure des connaissances est août 2024
  • Llama 4 Scout :

    • 17B de paramètres actifs, 16 experts, 109B au total
    • Adapté à un seul GPU H100 (quantification INT4)
    • Fenêtre de contexte de 10M tokens
    • Offre de meilleures performances sur les tâches multimodales que les précédentes versions de Llama tout en restant économe en ressources
    • Utilise l’architecture iRoPE pour une attention efficace sur les contextes longs
    • Testé avec jusqu’à 8 images par prompt
  • Llama 4 Maverick :

    • 17B de paramètres actifs, 128 experts, 400B au total
    • Fenêtre de contexte de 1M tokens
    • S’exécute sur un hôte H100 DGX plutôt que sur un GPU unique, ou peut être distribué pour une meilleure efficacité
    • Dépasse GPT-4o et Gemini 2.0 Flash sur les tests de code, de raisonnement et multilingues, tout en conservant un coût compétitif
    • Conserve de fortes capacités de compréhension d’image et de raisonnement fondé
  • Llama 4 Behemoth (aperçu) :

    • 288B de paramètres actifs, 16 experts, près de 2T au total
    • Toujours en cours d’entraînement, pas encore publié
    • Dépasse GPT-4.5, Claude Sonnet 3.7 et Gemini 2.0 Pro sur des benchmarks STEM (par ex. MATH-500, GPQA Diamond)
    • Sert de modèle « enseignant » pour Scout et Maverick via une co-distillation
  • Autres points :

    • Architecture MoE : seuls 17B paramètres sont activés par token, ce qui réduit le coût d’inférence
    • Multimodalité native : encodeur texte + vision unifié, pré-entraîné sur de grands volumes de données non annotées
  • Fil résumé par Llama 4 Maverick :

  • Le résultat obtenu avec Scout était une sortie complètement inutilisable :

  • Scout a aussi été exécuté directement via Groq, mais avec une limite de sortie de 2048 :

  • Les résumés d’autres modèles étaient plus proches du prompt système. Par exemple, c’était bien meilleur que Gemini 2.5 Pro :

  • Le petit modèle Scout est très attractif sur Apple Silicon. Il fait 109B, mais est réparti sur 16 experts. Le traitement réel se fait sur 17B. Sur un MacBook Pro M4 Max, en interrogeant un modèle local 7B (qwen 2.5 7B instruct) avec un contexte de 2k, on obtenait ~60 tokens/s. Il pourrait donc atteindre 30 tokens/s. Le temps jusqu’au premier token peut toutefois rester lent

  • Le modèle dispose d’une fenêtre de contexte de 10M tokens. On ne sait pas exactement dans quelle mesure il peut réellement suivre un contexte de cette taille, mais le simple fait de ne pas être limité à ~32k est déjà excellent

  • Tous les grands LLM ont des problèmes de biais. Ils penchent notamment à gauche sur les sujets politiques et sociaux. Cela peut venir du type de données d’entraînement disponibles sur Internet

  • Le prompt proposé évite les restrictions du type de celles des releases d’OpenAI :

    • Il comprend l’intention de l’utilisateur et n’essaie pas d’être excessivement serviable
    • Il ne refuse pas les prompts politiques
    • Llama 4 possède des connaissances jusqu’en août 2024 et parle plusieurs langues
  • La sortie a eu lieu seulement une heure après une autre discussion à propos de Meta :

    • Quelle que soit votre confiance dans les LLM, faire confiance aux propos de LeCun n’est probablement pas une bonne idée
    • Le laboratoire d’IA dirigé par LeCun a plusieurs problèmes
  • Disponible sur Groq :

    • Llama 4 Scout tourne à plus de 460 tokens/s et Llama 4 Maverick est lancé aujourd’hui
    • Llama 4 Scout : 0,11 $ / M tokens en entrée et 0,34 $ / M tokens en sortie
    • Llama 4 Maverick : 0,50 $ / M tokens en entrée et 0,77 $ / M tokens en sortie
  • C’est une époque vraiment passionnante. Cela rappelle la période où les frameworks JavaScript explosaient. À l’époque, on avait l’impression de se demander « encore un autre framework à apprendre ? », mais aujourd’hui, l’innovation avance de nouveau très vite, et cette fois cela ressemble à une aventure exaltante à laquelle nous pouvons participer