- Inclut le code d’entraînement de MobileLLM, présenté dans l’article « MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases » à l’ICML 2024
- Cette recherche examine de manière globale plusieurs éléments de conception afin d’obtenir des LLM de haute qualité avec moins d’un milliard de paramètres
- MobileLLM est conçu en intégrant (1) la fonction d’activation SwiGLU, (2) une architecture profonde et étroite, (3) le partage des embeddings et (4) la grouped query attention
- MobileLLM-125M/350M atteint un gain de précision de 2,7 % / 4,3 % respectivement sur les tâches de raisonnement de bon sens en zero-shot par rapport aux précédents modèles SoTA 125M/350M
- Dans la version mise à jour, les modèles MobileLLM-600M/1B/1.5B ont été étendus à des tailles plus importantes et affichent des résultats SoTA
Le récapitulatif de GN⁺
- MobileLLM propose une philosophie de conception optimisée pour des modèles de langage de haute qualité comptant moins d’un milliard de paramètres
- Il améliore les performances en intégrant des éléments comme la fonction d’activation SwiGLU, une architecture profonde et étroite, le partage des embeddings et la grouped query attention
- Il obtient une précision supérieure à celle des modèles existants sur les tâches de raisonnement de bon sens en zero-shot
- Cette recherche constitue une contribution importante aux cas d’usage des modèles de langage sur appareils mobiles et embarqués
- Parmi les projets aux fonctionnalités similaires figurent GPT-neo, OPT et BLOOM
1 commentaires
Commentaires sur Hacker News
Les modèles MobileLLM-125M/350M montrent une amélioration de précision de 2,7 % / 4,3 % par rapport aux précédents modèles SoTA 125M/350M
Il est mentionné que le modèle à 1.5B paramètres a réalisé un progrès considérable
Quelqu’un se demande si l’Apple Watch a les capacités matérielles pour exécuter l’inférence d’un petit modèle
Quelqu’un demande si cela doit forcément rester limité aux appareils mobiles
Il est mentionné qu’un STT embarqué, comme pour un wake-word, est actuellement nécessaire
Quelqu’un cherche une app capable de tourner sur iPhone
Quelqu’un se demande jusqu’où on peut pousser l’aspect « plus profond et plus fin »
Quelqu’un demande si des méthodes comme la distillation pourraient aider
Il est mentionné que les petits modèles semblent obtenir la plus grande réduction de taille via le partage / couplage des poids entre la tête linéaire et les embeddings de tokens
Quelqu’un demande s’il est possible d’entraîner un modèle même sur un PC Windows avec ce modèle
C’est intéressant, mais quelqu’un se demande quels cas d’usage existent au-delà d’une meilleure autocomplétion