Entraîner de meilleurs grands modèles de langage grâce à la prédiction multi-tokens
- Les grands modèles de langage comme GPT et Llama sont entraînés avec une perte de prédiction du token suivant.
- Cette étude propose que l’apprentissage d’un modèle pour prédire plusieurs tokens futurs en une seule fois augmente l’efficacité d’échantillonnage.
- Concrètement, au niveau de chaque position du corpus d’entraînement, on demande au modèle de prédire les n tokens suivants en utilisant n têtes de sortie indépendantes qui opèrent sur un tronc de modèle partagé.
- En considérant la prédiction multi-tokens comme une tâche d’apprentissage auxiliaire, les auteurs mesurent une amélioration des performances principales sans overhead en temps d’entraînement, pour les modèles de code comme pour ceux de langage naturel.
Plus le modèle est grand, plus la méthode est efficace, et elle reste intéressante lors d’un entraînement multi-époques
- Cette méthode est davantage utile lorsque le modèle est plus grand et conserve son attrait même avec plusieurs époques d’entraînement.
- Les gains sont particulièrement marqués sur des benchmarks de génération, comme le code, et ce modèle surpasse systématiquement un baseline solide de quelques points de pourcentage.
- Le modèle de 13 milliards de paramètres résout 12 % de problèmes supplémentaires sur HumanEval et 17 % de plus sur MBPP.
Avantages pour le développement des induction heads et le raisonnement algorithmique
- Les expériences sur des tâches algorithmiques de petite taille montrent que la prédiction multi-tokens est favorable au développement des induction heads et aux capacités de raisonnement algorithmique.
- Un avantage supplémentaire : un modèle entraîné avec une prédiction à 4 tokens peut atteindre une vitesse d’inférence jusqu’à 3 fois plus rapide sur de grands batch sizes.
Opinion de GN⁺
- C’est une étude intéressante proposant une nouvelle méthode d’entraînement pour améliorer l’efficacité des modèles de langage. Le fait que le gain soit particulièrement marqué pour les grands modèles est à signaler.
- Il serait bienvenu d’avoir des expériences supplémentaires sur l’effet de la prédiction multi-tokens sur l’apprentissage des dépendances à long terme. Par exemple, étudier l’évolution des performances sur des tâches de dépendance à distance, comme la résolution de références entre phrases, serait pertinent.
- Les gains étant importants sur des tâches de génération spécifiques comme le codage ou la résolution de problèmes mathématiques, il serait intéressant de savoir quel est l’impact sur les tâches générales de compréhension du langage naturel ou de QA. Il serait utile de compléter avec des résultats sur des benchmarks variés.
- L’amélioration de la vitesse d’inférence peut constituer un atout pratique majeur. Elle paraît particulièrement adaptée à l’intégration dans des chatbots ou des systèmes de question-réponse où la réactivité en temps réel est requise.
- Alors qu’on observe un fort intérêt pour les modèles basés sur le RLHF, comme le Constitutional AI d’Anthropic ou InstructGPT d’OpenAI, cette recherche est importante car elle montre qu’il est possible d’améliorer les performances des modèles de langage via l’apprentissage supervisé seul. Les questions de l’alignement sur les valeurs éthiques et d’autres problématiques restent bien sûr ouvertes, mais l’approche paraît suffisamment compétitive sur le plan de l’efficacité d’entraînement.
1 commentaires
Commentaires de Hacker News
Résumé: