11 points par GN⁺ 2024-09-26 | 1 commentaires | Partager sur WhatsApp
  • Meta lance Llama 3.2

    • inclut des LLM de vision petits et moyens (11B et 90B) ainsi que des modèles légers texte seul (1B et 3B)
    • disponible sur le matériel Qualcomm et MediaTek, avec une optimisation pour les processeurs Arm
    • des modèles adaptés au résumé, au suivi d’instructions et aux tâches de réécriture
  • Caractéristiques des modèles Llama 3.2

    • les modèles de vision 11B et 90B excellent dans les tâches de compréhension d’image
    • possibilité d’ajustement fin pour des applications personnalisées avec torchtune
    • déploiement local possible avec torchchat
    • disponible via l’assistant intelligent Meta AI
  • Déploiement de Llama Stack

    • simplifie le travail avec les modèles Llama dans des environnements à nœud unique, on-premise, cloud et on-device
    • déployé en collaboration avec AWS, Databricks, Dell Technologies, Fireworks, Infosys et Together AI
  • Téléchargement des modèles Llama 3.2

    • téléchargeable sur llama.com et Hugging Face
    • développement immédiat possible sur des plateformes partenaires comme AMD, AWS, Databricks, Dell, Google Cloud, Groq, IBM, Intel, Microsoft Azure, NVIDIA, Oracle Cloud et Snowflake
  • Performances de Llama 3.2

    • les modèles 11B et 90B sont adaptés à la compréhension au niveau document, à la génération de légendes d’images et aux tâches fondées sur l’information visuelle
    • les modèles 1B et 3B offrent la génération de texte multilingue et des capacités d’appel d’outils
    • en exécution locale, ils offrent des réponses immédiates et un niveau élevé de confidentialité
  • Évaluation des modèles

    • performances évaluées sur plus de 150 jeux de données de benchmark
    • des performances capables de rivaliser avec Claude 3 Haiku et GPT4o-mini
  • Modèles de vision

    • introduction d’une nouvelle architecture de modèle pour prendre en charge les entrées d’image
    • tout en conservant les capacités texte seul, ils combinent des prompts d’image et de texte pour permettre une compréhension et un raisonnement approfondis
  • Modèles légers

    • développement des modèles 1B et 3B à l’aide de méthodes d’élagage et de distillation des connaissances
    • exécution efficace possible en local
  • Déploiement de Llama Stack

    • fournit une interface standardisée via l’API Llama Stack
    • simplifie le travail avec les modèles Llama dans divers environnements
  • Sécurité au niveau système

    • lancement de Llama Guard 3 11B Vision
    • le modèle Llama Guard 3 1B réduit fortement les coûts de déploiement
  • Utilisation de Llama 3.2

    • fournit aux développeurs les outils et ressources nécessaires
    • permet de développer des applications innovantes avec Llama 3.2 et Llama Stack

Le récapitulatif de GN⁺

  • Llama 3.2 propose divers modèles de vision et de texte, y compris des modèles légers pouvant s’exécuter sur des appareils edge et mobiles
  • grâce à des collaborations avec Qualcomm, MediaTek, Arm et d’autres, il offre des performances optimisées sur différents matériels
  • avec le déploiement de Llama Stack, il aide les développeurs à utiliser facilement les modèles Llama dans des environnements variés
  • Llama 3.2 offre une forte confidentialité et des réponses immédiates, ce qui le rend adapté au développement d’applications locales
  • il offre des performances capables de rivaliser avec Claude 3 Haiku et GPT4o-mini, et a démontré d’excellents résultats sur divers benchmarks

1 commentaires

 
GN⁺ 2024-09-26
Avis Hacker News
  • Impressionné par les performances du nouveau modèle 1B. La taille du téléchargement est de 1,3 Go

    • Je l’ai essayé pour résumer une base de code entière. Ce n’est pas parfait, mais les performances sont étonnantes pour un si petit modèle
    • Davantage de notes sont disponibles ici
    • J’ai aussi essayé le plus grand modèle d’image. Il est possible de téléverser des images via "Direct Chat" sur lmarena.ai
  • Dans l’exemple "The Llama jumped over the ______!", avec un encodage 1-hot, la bonne réponse est "wall" avec une probabilité de 100 %

    • Dire que "fence" est aussi possible est incorrect. Je pense que cela explique pourquoi la distillation de modèle fonctionne bien
    • Le modèle d’origine apprend à travers des réponses textuelles, mais le modèle enfant apprend des réponses plus pertinentes en imitant les prédictions
    • Je comprends pourquoi les modèles Llama 3.2 de Meta sont petits mais puissants. Impressionné par les progrès des modèles
  • J’admire l’ouverture de l’équipe Llama chez Meta. Ils publient non seulement l’accès aux modèles, mais aussi la manière dont ils les construisent

    • Impossible de savoir ce qu’il en sera pour les futurs modèles, mais je suis reconnaissant de l’attitude ouverte de Meta
  • Question de débutant : j’ai besoin d’un modèle avec des capacités d’ingénieur logiciel 10x, sans avoir besoin de connaissances humaines. Je me demande si un tel modèle existe

  • J’ai essayé le modèle 3B dans Ollama. Il répond vite et semble avoir beaucoup de connaissances en optique, biologie et Rust

    • Modèle très impressionnant
  • Billet de blog d’Ollama : lien

  • Le modèle llama3.2:3b-instruct-q8_0 est plus performant que 3.1 8b-q4. Il est plus rapide sur un MacBook Pro M1 et donne de meilleurs résultats

    • Il fournit de meilleures réponses à quelques énigmes et expériences de pensée
    • J’ai supprimé mon installation de 3.1-8b
    • Liste Ollama actuelle :
      • llama3.2:3b-instruct-q8_0: 3.4GB, modifié il y a 2 heures
      • gemma2:9b-instruct-q4_1: 6.0GB, modifié il y a 3 jours
      • phi3.5:3.8b-mini-instruct-q8_0: 4.1GB, modifié il y a 3 jours
      • mxbai-embed-large:latest: 669MB, modifié il y a 3 mois
  • Quelqu’un peut-il recommander un client Web UI pour Ollama ?

  • Quelqu’un sait-il s’il existe un leaderboard avec les benchmarks LLM les plus récents ?

    • Livebench et Lmsys ont quelques semaines de retard et n’ajoutent pas les principaux modèles
    • Si cela n’existe pas, je serais prêt à le créer moi-même
  • Le modèle 3B était plutôt bon en multimodal (norvégien), mais donne parfois beaucoup de réponses dénuées de sens. Il est plus sensible que le 8B, mais reste plus utilisable que Gemma 2 2B

    • Correct sur une question de tri de liste Python
    • Le modèle vision 90B refuse des tâches utiles. Il échoue à reproduire une image en HTML ou à utiliser utilement les données d’image
    • Je n’avais pas ces problèmes avec le 70B ou OpenAI. Il y a beaucoup trop de refus