Meta dévoile Llama 3.1

xguru · 2024-07-24T09:04:18+09:00

Longueur de contexte de 128K, prise en charge de 8 langues et ajout d’un modèle 405B (8B, 70B, 405B) Modèle d’IA open source affiné par instruction que chacun peut fine-tuner, raffiner et déployer partout Le nouveau modèle 405B atteint un niveau presque équivalent, voire supérieur, à GPT-4o sur des benchmarks comme MMLU (général), Human Eval (code) et GSM8K (mathématiques) Un modèle d’IA de tout premier plan en matière de flexibilité et de contrôle Permet à la communauté d’exploiter de nouveaux workflows comme la génération de données synthétiques et la distillation de modèles Entraîné avec plus de 15 billions de tokens et plus de 1600 GPU H100 utilisés La version 70B améliorée surpasse largement GPT-3.5 Turbo sur la plupart des benchmarks

(ai.meta.com)

10 points par xguru 2024-07-24 | 3 commentaires | Partager sur WhatsApp

Longueur de contexte de 128K, prise en charge de 8 langues et ajout d’un modèle 405B (8B, 70B, 405B)
- Modèle d’IA open source affiné par instruction que chacun peut fine-tuner, raffiner et déployer partout
Le nouveau modèle 405B atteint un niveau presque équivalent, voire supérieur, à GPT-4o sur des benchmarks comme MMLU (général), Human Eval (code) et GSM8K (mathématiques)
- Un modèle d’IA de tout premier plan en matière de flexibilité et de contrôle
- Permet à la communauté d’exploiter de nouveaux workflows comme la génération de données synthétiques et la distillation de modèles
- Entraîné avec plus de 15 billions de tokens et plus de 1600 GPU H100 utilisés
La version 70B améliorée surpasse largement GPT-3.5 Turbo sur la plupart des benchmarks

3 commentaires

wedding 2024-07-24

Waouh, je me demande vraiment comment il faudrait configurer les GPU pour faire tourner le modèle 405B.

gcback 2024-07-24

Il semble que la version 405B ne soit pas vraiment destinée au fine-tuning direct ou au serving. Vu que le CEO a mentionné plusieurs fois la distillation, il s’agit peut-être plutôt d’un usage de fine-tuning comme modèle teacher afin d’améliorer la qualité des modèles plus légers.

xguru 2024-07-24

Avis Hacker News

Les modèles Llama 3.1 ont amélioré leurs performances
- Les modèles 8B et 70B sont plus performants que Llama 3
- Le modèle 405B atteint un niveau capable de rivaliser avec GPT-4o, GPT-4 turbo, Claude 3.5 Sonnet et Claude 3 Opus
Comparaison entre GPT-4o et le modèle Llama 3.1 405B
- MMLU : GPT-4o 88.7, Llama 3.1 405B 88.6
- GPQA : GPT-4o 53.6, Llama 3.1 405B 51.1
- MATH : GPT-4o 76.6, Llama 3.1 405B 73.8
- HumanEval : GPT-4o 90.2, Llama 3.1 405B 89.0
- MGSM : GPT-4o 90.5, Llama 3.1 405B 91.6
Il est possible d’échanger avec les nouveaux modèles sur Groq.com avec une latence ultra-faible
- Accès API disponible pour les modèles 8B et 70B
- L’API 405B n’est accessible qu’à certains clients sélectionnés
Avec le matériel adéquat, il est possible de faire tourner chez soi un LLM capable de rivaliser avec GPT-4o
Il est possible d’exécuter les modèles en local via Ollama, Huggingface, Groq, etc.
- Avec LLMStack, on peut tester les modèles en local ou construire rapidement des applications
Le résultat obtenu en lançant la version 70B sur Ollama était très bon
- Il a été possible d’exécuter une commande pour désactiver les guidelines et les disclaimers
- Une liste de commandes a été fournie pour réduire les biais potentiels des ingénieurs
Claude 3.5 Sonnet est excellent pour les tâches de programmation
- Il reste en tête sur les benchmarks de code, notamment avec la fonctionnalité Artifacts
Question sur les tarifs des modèles open source
- L’auto-hébergement est très intéressant, mais le coût de l’inférence hébergée par token reste moins compétitif que chez OpenAI et Anthropic
- Exemple : Llama 3 70B coûte entre 1 $ et 10 $ par million de tokens selon les plateformes, contre 3 $ par million de tokens pour Claude Sonnet 3.5

Meta dévoile Llama 3.1

À lire aussi

3 commentaires

Avis Hacker News