10 points par xguru 2024-07-24 | 3 commentaires | Partager sur WhatsApp
  • Longueur de contexte de 128K, prise en charge de 8 langues et ajout d’un modèle 405B (8B, 70B, 405B)
    • Modèle d’IA open source affiné par instruction que chacun peut fine-tuner, raffiner et déployer partout
  • Le nouveau modèle 405B atteint un niveau presque équivalent, voire supérieur, à GPT-4o sur des benchmarks comme MMLU (général), Human Eval (code) et GSM8K (mathématiques)
    • Un modèle d’IA de tout premier plan en matière de flexibilité et de contrôle
    • Permet à la communauté d’exploiter de nouveaux workflows comme la génération de données synthétiques et la distillation de modèles
    • Entraîné avec plus de 15 billions de tokens et plus de 16�00 GPU H100 utilisés
  • La version 70B améliorée surpasse largement GPT-3.5 Turbo sur la plupart des benchmarks

3 commentaires

 
wedding 2024-07-24

Waouh, je me demande vraiment comment il faudrait configurer les GPU pour faire tourner le modèle 405B.

 
gcback 2024-07-24

Il semble que la version 405B ne soit pas vraiment destinée au fine-tuning direct ou au serving. Vu que le CEO a mentionné plusieurs fois la distillation, il s’agit peut-être plutôt d’un usage de fine-tuning comme modèle teacher afin d’améliorer la qualité des modèles plus légers.

 
xguru 2024-07-24

Avis Hacker News

  • Les modèles Llama 3.1 ont amélioré leurs performances

    • Les modèles 8B et 70B sont plus performants que Llama 3
    • Le modèle 405B atteint un niveau capable de rivaliser avec GPT-4o, GPT-4 turbo, Claude 3.5 Sonnet et Claude 3 Opus
  • Comparaison entre GPT-4o et le modèle Llama 3.1 405B

    • MMLU : GPT-4o 88.7, Llama 3.1 405B 88.6
    • GPQA : GPT-4o 53.6, Llama 3.1 405B 51.1
    • MATH : GPT-4o 76.6, Llama 3.1 405B 73.8
    • HumanEval : GPT-4o 90.2, Llama 3.1 405B 89.0
    • MGSM : GPT-4o 90.5, Llama 3.1 405B 91.6
  • Il est possible d’échanger avec les nouveaux modèles sur Groq.com avec une latence ultra-faible

    • Accès API disponible pour les modèles 8B et 70B
    • L’API 405B n’est accessible qu’à certains clients sélectionnés
  • Avec le matériel adéquat, il est possible de faire tourner chez soi un LLM capable de rivaliser avec GPT-4o

  • Il est possible d’exécuter les modèles en local via Ollama, Huggingface, Groq, etc.

    • Avec LLMStack, on peut tester les modèles en local ou construire rapidement des applications
  • Le résultat obtenu en lançant la version 70B sur Ollama était très bon

    • Il a été possible d’exécuter une commande pour désactiver les guidelines et les disclaimers
    • Une liste de commandes a été fournie pour réduire les biais potentiels des ingénieurs
  • Claude 3.5 Sonnet est excellent pour les tâches de programmation

    • Il reste en tête sur les benchmarks de code, notamment avec la fonctionnalité Artifacts
  • Question sur les tarifs des modèles open source

    • L’auto-hébergement est très intéressant, mais le coût de l’inférence hébergée par token reste moins compétitif que chez OpenAI et Anthropic
    • Exemple : Llama 3 70B coûte entre 1 $ et 10 $ par million de tokens selon les plateformes, contre 3 $ par million de tokens pour Claude Sonnet 3.5