22 points par xguru 2024-04-19 | 2 commentaires | Partager sur WhatsApp
  • Meta dévoile les deux premiers modèles de Llama 3 (les modèles 8B et 70B préentraînés et affinés pour le suivi d’instructions)
  • Ils affichent des performances de pointe sur un large éventail de benchmarks du secteur et apportent de nouvelles capacités, notamment un raisonnement amélioré
  • L’objectif est de construire les meilleurs modèles open source, au niveau des meilleurs modèles propriétaires actuellement disponibles. Meta veut intégrer les retours des développeurs et publier rapidement et fréquemment
  • Introduction de nouveaux outils de confiance et de sécurité comme Llama Guard 2, Code Shield et CyberSec Eval 2
  • Dans les prochains mois, Meta prévoit d’introduire de nouvelles capacités, une fenêtre de contexte plus longue, d’autres tailles de modèles et de meilleures performances, ainsi que de partager un article de recherche sur Llama 3
  • Le modèle sera bientôt disponible sur AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, Snowflake, etc., et sera également pris en charge sur des plateformes matérielles comme AMD, AWS, Dell, Intel, NVIDIA et Qualcomm
  • Meta AI, construit avec la technologie Llama 3, est désormais l’un des meilleurs assistants IA au monde et peut aider à accroître l’intelligence des utilisateurs tout en allégeant leur charge

Performances de Llama 3

  • Les modèles Llama 3 de 8B et 70B paramètres représentent un grand bond en avant par rapport à Llama 2 et établissent un nouveau meilleur niveau pour des modèles LLM de cette taille
  • Grâce aux améliorations du préentraînement et du post-entraînement, les modèles préentraînés et affinés pour le suivi d’instructions sont les meilleurs existants aux tailles 8B et 70B paramètres
  • Les améliorations de la procédure de post-entraînement réduisent fortement le taux de faux refus, améliorent l’alignement et augmentent la diversité des réponses du modèle
  • Les capacités de raisonnement, de génération de code et de suivi d’instructions ont également été nettement améliorées, rendant Llama 3 plus pilotable (steerable)
  • Au cours du développement de Llama 3, Meta a examiné les performances du modèle sur des benchmarks standard tout en cherchant aussi à optimiser les performances dans des scénarios réels
  • Pour cela, un nouvel ensemble d’évaluation humaine de haute qualité a été développé, comprenant 1 800 prompts couvrant 12 cas d’usage clés
  • Cet ensemble d’évaluation montre que le modèle 70B orienté suivi d’instructions offre de solides performances dans des scénarios réels face à des modèles concurrents de taille comparable
  • Les modèles préentraînés atteignent eux aussi un nouvel état de l’art pour des LLM de cette taille
  • Meta estime que l’innovation, le passage à l’échelle et l’optimisation de la simplicité sont essentiels pour développer d’excellents modèles de langage
  • Cette philosophie de conception a été appliquée à l’ensemble du projet Llama 3, en se concentrant sur quatre éléments clés : l’architecture du modèle, les données de préentraînement, la montée en échelle du préentraînement et l’affinage pour le suivi d’instructions

Architecture du modèle

  • Pour Llama 3, Meta a choisi une architecture de transformeur décodeur-only relativement standard
  • Par rapport à Llama 2, plusieurs améliorations majeures sont apportées
    • Llama 3 utilise un tokenizer avec un vocabulaire de 128K tokens, qui encode la langue bien plus efficacement, ce qui améliore nettement les performances du modèle
    • Pour améliorer l’efficacité d’inférence des modèles Llama 3, Meta adopte le Grouped-Query Attention (GQA) sur les tailles 8B et 70B
    • Le modèle a été entraîné sur des séquences de 8 192 tokens en utilisant un masque pour empêcher l’auto-attention de franchir les frontières des documents

Données d’entraînement

  • Pour entraîner les meilleurs modèles de langage, la constitution d’un très grand jeu de données d’entraînement de haute qualité est primordiale
  • Llama 3 a été préentraîné sur plus de 15T tokens collectés à partir de sources publiquement disponibles
  • Le jeu de données d’entraînement est 7 fois plus grand que celui utilisé pour Llama 2 et contient 4 fois plus de code
  • Pour préparer de futurs cas d’usage multilingues, plus de 5 % du jeu de données de préentraînement de Llama 3 est constitué de données non anglaises de haute qualité couvrant plus de 30 langues

Passage à l’échelle du préentraînement

  • Meta a consacré des efforts considérables à la montée en échelle du préentraînement afin d’exploiter efficacement les données de préentraînement dans les modèles Llama 3
  • En particulier, une série de lois d’échelle détaillées a été développée pour l’évaluation des benchmarks downstream
  • Ces lois d’échelle permettent de prendre des décisions éclairées sur le meilleur mélange de données à utiliser et sur la manière d’optimiser au mieux le calcul d’entraînement

Affinage pour le suivi d’instructions

  • Afin d’exploiter pleinement le potentiel des modèles préentraînés pour les usages conversationnels, Meta a également innové dans son approche de l’instruction tuning
  • L’approche du post-entraînement combine le Supervised Fine-Tuning (SFT), l’échantillonnage par rejet, le Proximal Policy Optimization (PPO) et le Direct Policy Optimization (DPO)
  • La qualité des prompts utilisés pour le SFT et les classements de préférences utilisés pour PPO et DPO influencent de manière disproportionnée les performances des modèles alignés

Construire avec Llama 3

  • La vision de Meta est de permettre aux développeurs de personnaliser Llama 3 pour prendre en charge leurs cas d’usage pertinents, adopter facilement les bonnes pratiques et améliorer l’écosystème ouvert
  • Cette version introduit également de nouveaux outils de confiance et de sécurité, dont des composants mis à jour avec Llama Guard 2 et Cybersec Eval 2, ainsi que Code Shield, un garde-fou au moment de l’inférence pour filtrer le code dangereux généré par les LLM
  • Meta a aussi développé Llama 3 avec torchtune, une nouvelle bibliothèque native PyTorch qui facilite la création, l’affinage et l’expérimentation avec des LLM

Une approche au niveau système pour un développement et un déploiement responsables

  • Les modèles Llama 3 ont été conçus pour être aussi utiles que possible tout en garantissant une approche de déploiement responsable de premier plan dans l’industrie
  • Pour cela, Meta adopte une nouvelle approche au niveau système pour le développement et le déploiement responsables de Llama
  • Les modèles Llama sont considérés comme l’élément de base d’un système que les développeurs conçoivent en gardant à l’esprit leurs propres objectifs finaux
  • L’affinage pour le suivi d’instructions joue un rôle important pour garantir la sécurité du modèle
  • Les modèles affinés pour le suivi d’instructions font l’objet de red teaming sur la sécurité via des efforts internes et externes
  • Ces efforts sont itératifs et servent à affiner la sécurité des modèles publiés
  • Les modèles Llama Guard constituent la base de la sécurité des prompts et des réponses, et permettent de créer facilement de nouvelles classifications selon les besoins des applications
  • Le nouveau Llama Guard 2 utilise la taxonomie MLCommons récemment annoncée afin de prendre en charge les standards du secteur
  • CyberSecEval 2 étend la version précédente en ajoutant des mesures de la propension des LLM à être exploités via un interpréteur de code, de leurs capacités offensives en cybersécurité et de leur vulnérabilité aux attaques par prompt injection
  • Code Shield prend en charge le filtrage au moment de l’inférence du code dangereux généré par les LLM afin de réduire les risques liés aux suggestions de code non sûr, à l’exploitation d’interpréteurs de code et à l’exécution de commandes sensibles

Déploiement à grande échelle de Llama 3

  • Llama 3 sera bientôt disponible sur les principales plateformes, notamment chez les fournisseurs cloud et les fournisseurs d’API de modèles
  • Selon les benchmarks, le tokenizer génère jusqu’à 15 % de tokens en moins que celui de Llama 2, ce qui améliore l’efficacité en tokens
  • Le Grouped-Query Attention (GQA) a également été ajouté à Llama 3 8B

Feuille de route de Llama 3

  • Les modèles Llama 3 8B et 70B ne sont que le début du plan de lancement de Llama 3
  • Au cours des prochains mois, Meta prévoit de publier plusieurs modèles dotés de nouvelles capacités, notamment le multimodal, la conversation multilingue, une fenêtre de contexte bien plus longue et des capacités globalement plus puissantes
  • Une fois l’entraînement de Llama 3 terminé, un article de recherche détaillé sera également publié

2 commentaires

 
dormis 2024-04-19

Je ne sais pas pour les autres clouds, mais sur Azure AI Studio, Llama-3 (Meta-Llama-3-8B, Meta-Llama-3-70B, Meta-Llama-3-70B-Instruct, Meta-Llama-3-8B-Instruct) est déjà disponible aux côtés de Mixtral 8x22B.