- Article sur les difficultés du déploiement des grands modèles de langage (Large Language Models, LLMs) : en raison de leur taille et de leurs exigences de calcul, ils restent difficiles d’accès pour de nombreuses équipes de recherche, en particulier pour les applications nécessitant de faibles temps de latence
- Pour surmonter ces défis, de petits modèles spécialisés entraînés via fine-tuning ou distillation sont souvent déployés. Cependant, ces méthodes ont aussi leurs propres limites, comme le besoin de labels générés par des humains ou de grandes quantités de données non étiquetées
- Les auteurs présentent un nouveau mécanisme appelé « distillation étape par étape », qui permet d’entraîner de petits modèles spécialisés par tâche avec bien moins de données d’entraînement que ne l’exigent les approches standard de fine-tuning ou de distillation
- Ce mécanisme permet à un modèle T5 de 770M de paramètres de surpasser un modèle PaLM de 540B prompté en few-shot en n’utilisant que 80 % des exemples des jeux de données de benchmark, tout en montrant une réduction de taille de modèle de plus de 700 fois avec beaucoup moins de données d’entraînement que les approches standard
- L’idée centrale de la distillation étape par étape consiste à extraire des raisonnements en langage naturel riches en information à partir des LLMs, puis à les utiliser pour entraîner plus efficacement un petit modèle
- Ce processus comporte deux étapes principales : d’abord, extraire des raisonnements à partir des LLMs à l’aide d’un prompt CoT en few-shot ; ensuite, intégrer ces raisonnements dans l’entraînement du petit modèle en formulant le processus d’entraînement comme un problème multi-tâche
- Les auteurs ont mené des expériences sur quatre jeux de données de benchmark couvrant trois tâches NLP différentes, et ont constaté que la méthode de distillation étape par étape obtenait de meilleures performances que le fine-tuning standard tout en utilisant beaucoup moins de données d’entraînement
- Le mécanisme de distillation étape par étape est disponible en aperçu privé sur Vertex AI, la plateforme Google Cloud
- Cette recherche a été menée par Cheng-Yu Hsieh, Chun-Liang Li, Chih-Kuan Yeh, Hootan Nakhost, Yasuhisa Fujii, Alexander Ratner, Ranjay Krishna, Chen-Yu Lee et Tomas Pfister.
1 commentaires
Avis Hacker News