3 points par GN⁺ 2023-09-24 | 1 commentaires | Partager sur WhatsApp
  • Article sur les difficultés du déploiement des grands modèles de langage (Large Language Models, LLMs) : en raison de leur taille et de leurs exigences de calcul, ils restent difficiles d’accès pour de nombreuses équipes de recherche, en particulier pour les applications nécessitant de faibles temps de latence
  • Pour surmonter ces défis, de petits modèles spécialisés entraînés via fine-tuning ou distillation sont souvent déployés. Cependant, ces méthodes ont aussi leurs propres limites, comme le besoin de labels générés par des humains ou de grandes quantités de données non étiquetées
  • Les auteurs présentent un nouveau mécanisme appelé « distillation étape par étape », qui permet d’entraîner de petits modèles spécialisés par tâche avec bien moins de données d’entraînement que ne l’exigent les approches standard de fine-tuning ou de distillation
  • Ce mécanisme permet à un modèle T5 de 770M de paramètres de surpasser un modèle PaLM de 540B prompté en few-shot en n’utilisant que 80 % des exemples des jeux de données de benchmark, tout en montrant une réduction de taille de modèle de plus de 700 fois avec beaucoup moins de données d’entraînement que les approches standard
  • L’idée centrale de la distillation étape par étape consiste à extraire des raisonnements en langage naturel riches en information à partir des LLMs, puis à les utiliser pour entraîner plus efficacement un petit modèle
  • Ce processus comporte deux étapes principales : d’abord, extraire des raisonnements à partir des LLMs à l’aide d’un prompt CoT en few-shot ; ensuite, intégrer ces raisonnements dans l’entraînement du petit modèle en formulant le processus d’entraînement comme un problème multi-tâche
  • Les auteurs ont mené des expériences sur quatre jeux de données de benchmark couvrant trois tâches NLP différentes, et ont constaté que la méthode de distillation étape par étape obtenait de meilleures performances que le fine-tuning standard tout en utilisant beaucoup moins de données d’entraînement
  • Le mécanisme de distillation étape par étape est disponible en aperçu privé sur Vertex AI, la plateforme Google Cloud
  • Cette recherche a été menée par Cheng-Yu Hsieh, Chun-Liang Li, Chih-Kuan Yeh, Hootan Nakhost, Yasuhisa Fujii, Alexander Ratner, Ranjay Krishna, Chen-Yu Lee et Tomas Pfister.

1 commentaires

 
GN⁺ 2023-09-24
Avis Hacker News
  • On s’attend à ce que des modèles experts plus petits dominent la plupart des applications grâce à un équilibre optimal entre taille et facilité d’usage.
  • Les modèles distillés utilisant T5 suggèrent que l’architecture encodeur-décodeur peut encore rester pertinente.
  • L’approche n’est pas excessivement complexe, ce qui laisse penser qu’il reste encore beaucoup à explorer dans le domaine des Large Language Models (LLMs).
  • L’avenir des LLMs pourrait inclure un mélange de modèles experts entraînés dans ce style.
  • Le niveau d’activité et de progrès dans les domaines des LLM, du Machine Learning (ML) et de l’Artificial Intelligence (AI) est impressionnant.
  • Lorsque du matériel comme celui de Nvidia est coûteux, ce type d’optimisation a de la valeur.
  • Les modèles les plus efficaces seront probablement multimodaux et entraînés avec un corpus de base soigneusement adapté.
  • Une question est soulevée sur la raison pour laquelle les données d’entraînement des LLM sont moins nombreuses que celles des modèles distillés et spécialisés par tâche.
  • Certains spéculent sur le fait que le Reinforcement Learning from Human Feedback (RLHF) sera nécessaire pour de plus petits modèles afin d’atteindre des performances comparables à celles des LLM de pointe.
  • On ne sait pas clairement si une grande partie de la capacité des grands LLM reste inutilisée, ou si les petits modèles de langage se contentent simplement d’imiter les tâches de raisonnement.
  • Le Mac Studio, qui prend en charge jusqu’à 144 GB de mémoire GPU disponible, pourrait être utilisé dans l’espace des services LLM.
  • Il est suggéré que Facebook pourrait entraîner un LLM sur l’intégralité de l’historique de discussion de ses utilisateurs.