La prédiction de plusieurs jetons améliore l'efficacité d'échantillonnage et les performances des grands modèles de langage.

(arxiv.org)

2 points par brainer 2024-05-01 | Aucun commentaire pour le moment. | Partager sur WhatsApp

• Cet article propose une nouvelle méthode d’entraînement pour les grands modèles de langage (LLM), appelée prédiction de plusieurs jetons, qui consiste à entraîner le modèle à prédire simultanément plusieurs jetons futurs.

• Les auteurs soutiennent que cette approche se traduit par une efficacité d’échantillonnage plus élevée, ce qui signifie que le modèle peut apprendre de manière plus efficace à partir d’une quantité donnée de données d’entraînement.

• Ils démontrent l’efficacité de la méthode sur diverses tâches en aval, notamment la génération de code et le traitement du langage naturel, et montrent que la prédiction de plusieurs jetons surpasse systématiquement plusieurs baselines robustes de plusieurs points de pourcentage. En particulier, leur modèle de 13 milliards de paramètres réalise des gains importants sur des benchmarks de codage exigeants comme HumanEval et MBPP.

• Outre les performances accrues, la prédiction de plusieurs jetons offre également des avantages de calcul. Un modèle entraîné avec la prédiction de 4 jetons fonctionne jusqu’à 3 fois plus vite en inférence avec des lots de grande taille, ce qui le rend plus efficace pour les applications réelles.

La prédiction de plusieurs jetons améliore l'efficacité d'échantillonnage et les performances des grands modèles de langage.

À lire aussi

Aucun commentaire pour le moment.