3 points par GN⁺ 2024-04-22 | 1 commentaires | Partager sur WhatsApp

Performances de Meta-Llama-3-8B-Instruct

  • Bien qu’il s’agisse d’un modèle 8B, il affiche des performances presque équivalentes à Wizard 22B
  • Il montre même des capacités de raisonnement supérieures à celles des précédents modèles 70B
  • Il offre d’excellentes performances dans divers domaines, notamment la résolution de problèmes et le codage

Caractéristiques de Meta-Llama-3-8B-Instruct

  • Un résultat obtenu par Meta après avoir mobilisé des ressources massives pour un entraînement long sur davantage de données
  • Les performances varient selon le développeur et le matériel. Les résultats changent aussi en fonction des paramètres d’inférence
  • En version FP16, il affiche des performances presque identiques à Q8_0. Pour un modèle 8B, ce niveau est parmi les meilleurs pour un modèle quantifié
  • Les réponses générées peuvent avoir un ton un peu sec et spirituel. Il comprend l’intention des phrases et y répond de manière appropriée

Avis de GN⁺

  • Il fournit des réponses fiables sur une requête unique, mais montre encore des limites dans les conversations interactives à plusieurs tours. Des optimisations du template de prompt ou un réglage des hyperparamètres sont nécessaires
  • Les performances du modèle 8B étant très supérieures à celles du modèle 3B, il semble prometteur de fine-tuner divers modèles de classe 8B pour créer des modèles spécialisés
  • Ses capacités de compréhension du langage et de raisonnement étant excellentes, son potentiel d’usage est élevé dans les domaines intensifs en connaissances ou spécialisés. Il pourrait évoluer vers des modèles adaptés à des domaines comme la santé, le droit ou la finance
  • C’est une réalisation remarquable d’avoir porté un modèle 8B à ce niveau grâce aux ressources et au savoir-faire technique de Meta. À l’avenir, il devrait devenir possible de faire tourner des modèles d’IA très performants même sur des PC personnels
  • Il est regrettable qu’aucun modèle de taille intermédiaire entre 8B et 70B n’ait été publié. Un modèle d’environ 32B pourrait offrir un équilibre optimal entre performances et efficacité

1 commentaires

 
GN⁺ 2024-04-22
Avis sur Hacker News
  • Le modèle Llama 3 8B répond à la question de savoir ce qu’on obtient lorsqu’on entraîne très longtemps un petit modèle. C’est une tendance amorcée avec les modèles Mistral, et encore accentuée avec Llama 3. Utiliser 15T tokens pour un modèle de 8B paramètres est d’un niveau jamais vu jusqu’ici.
  • C’est une sortie qui renforce les attentes quant à l’amélioration de la qualité des petits modèles.
  • Llama 3 semble bavard et paraît faire certaines hypothèses erronées. Par exemple, il a fait preuve d’imagination en supposant qu’en crachant vers le ciel on pourrait atteindre les nuages, avant de se corriger lui-même en reconnaissant que ce n’est pas le cas en réalité.
  • On peut se demander si ces résultats viennent d’un entraînement plus important et de l’amélioration des capacités qui en découle, ou si c’est parce que ce type d’énigmes est désormais bien connu et bien représenté dans les données d’entraînement.
  • La particularité de Llama 3 est d’avoir fourni des efforts supplémentaires sur la déduplication des données d’entraînement (qualité) et sur l’augmentation du volume des données (quantité), tout en utilisant 4 fois plus de code dans les données d’entraînement, ce qui est bénéfique pour le raisonnement.
  • En consacrant davantage d’efforts à la curation et à la génération des données d’entraînement, il est peut-être possible d’espérer des gains de performance considérables même sur de si petits modèles.
  • Llama 3 n’utilise toujours pas de Mixture of Experts (MoE). Cela suggère que créer d’énormes modèles MoE pourrait être du gaspillage.
  • Meta dépense des milliards de dollars dans les puces IA de Nvidia. D’ici cinq ans, il semble possible de faire tourner sur téléphone et sur ordinateur portable des modèles 8B au niveau de GPT-4.
  • Je suis profondément impressionné par la capacité de raisonnement du modèle 8b-instruct. L’avenir des petits modèles est prometteur.
  • Le plus gros problème des LLM locaux est que les gens peuvent en avoir une impression différente selon la manière dont ils les utilisent.
  • La plupart des entreprises continuent d’entraîner leurs modèles en permanence, sans véritable point final. Cela explique pourquoi les dépenses en GPU sont énormes.
  • Pour faire tourner ce modèle sur un téléphone dès aujourd’hui, il faut d’abord commencer par exécuter llama.cpp dans Termux, puis charger des fichiers de modèle comme ggml.
  • Il est surprenant qu’un modèle 8B se trompe à la question : « Qu’est-ce qui est le plus lourd entre 1 kg de fer et 2 kg de plumes ? » GPT-3.5 se trompait aussi, mais le modèle 70B et GPT-4 répondent correctement.