- Longueur de contexte de 128K, prise en charge de 8 langues et ajout d’un modèle 405B (8B, 70B, 405B)
- Modèle d’IA open source affiné par instruction que chacun peut fine-tuner, raffiner et déployer partout
- Le nouveau modèle 405B atteint un niveau presque équivalent, voire supérieur, à GPT-4o sur des benchmarks comme MMLU (général), Human Eval (code) et GSM8K (mathématiques)
- Un modèle d’IA de tout premier plan en matière de flexibilité et de contrôle
- Permet à la communauté d’exploiter de nouveaux workflows comme la génération de données synthétiques et la distillation de modèles
- Entraîné avec plus de 15 billions de tokens et plus de 16�00 GPU H100 utilisés
- La version 70B améliorée surpasse largement GPT-3.5 Turbo sur la plupart des benchmarks
3 commentaires
Waouh, je me demande vraiment comment il faudrait configurer les GPU pour faire tourner le modèle 405B.
Il semble que la version 405B ne soit pas vraiment destinée au fine-tuning direct ou au serving. Vu que le CEO a mentionné plusieurs fois la distillation, il s’agit peut-être plutôt d’un usage de fine-tuning comme modèle teacher afin d’améliorer la qualité des modèles plus légers.
Avis Hacker News
Les modèles Llama 3.1 ont amélioré leurs performances
Comparaison entre GPT-4o et le modèle Llama 3.1 405B
Il est possible d’échanger avec les nouveaux modèles sur Groq.com avec une latence ultra-faible
Avec le matériel adéquat, il est possible de faire tourner chez soi un LLM capable de rivaliser avec GPT-4o
Il est possible d’exécuter les modèles en local via Ollama, Huggingface, Groq, etc.
Le résultat obtenu en lançant la version 70B sur Ollama était très bon
Claude 3.5 Sonnet est excellent pour les tâches de programmation
Question sur les tarifs des modèles open source