• Cet article propose une nouvelle méthode d’entraînement pour les grands modèles de langage (LLM), appelée prédiction de plusieurs jetons, qui consiste à entraîner le modèle à prédire simultanément plusieurs jetons futurs.
• Les auteurs soutiennent que cette approche se traduit par une efficacité d’échantillonnage plus élevée, ce qui signifie que le modèle peut apprendre de manière plus efficace à partir d’une quantité donnée de données d’entraînement.
• Ils démontrent l’efficacité de la méthode sur diverses tâches en aval, notamment la génération de code et le traitement du langage naturel, et montrent que la prédiction de plusieurs jetons surpasse systématiquement plusieurs baselines robustes de plusieurs points de pourcentage. En particulier, leur modèle de 13 milliards de paramètres réalise des gains importants sur des benchmarks de codage exigeants comme HumanEval et MBPP.
• Outre les performances accrues, la prédiction de plusieurs jetons offre également des avantages de calcul. Un modèle entraîné avec la prédiction de 4 jetons fonctionne jusqu’à 3 fois plus vite en inférence avec des lots de grande taille, ce qui le rend plus efficace pour les applications réelles.
Aucun commentaire pour le moment.