3 points par GN⁺ 2024-07-11 | 1 commentaires | Partager sur WhatsApp
  • Inclut le code d’entraînement de MobileLLM, présenté dans l’article « MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases » à l’ICML 2024
  • Cette recherche examine de manière globale plusieurs éléments de conception afin d’obtenir des LLM de haute qualité avec moins d’un milliard de paramètres
  • MobileLLM est conçu en intégrant (1) la fonction d’activation SwiGLU, (2) une architecture profonde et étroite, (3) le partage des embeddings et (4) la grouped query attention
  • MobileLLM-125M/350M atteint un gain de précision de 2,7 % / 4,3 % respectivement sur les tâches de raisonnement de bon sens en zero-shot par rapport aux précédents modèles SoTA 125M/350M
  • Dans la version mise à jour, les modèles MobileLLM-600M/1B/1.5B ont été étendus à des tailles plus importantes et affichent des résultats SoTA

Le récapitulatif de GN⁺

  • MobileLLM propose une philosophie de conception optimisée pour des modèles de langage de haute qualité comptant moins d’un milliard de paramètres
  • Il améliore les performances en intégrant des éléments comme la fonction d’activation SwiGLU, une architecture profonde et étroite, le partage des embeddings et la grouped query attention
  • Il obtient une précision supérieure à celle des modèles existants sur les tâches de raisonnement de bon sens en zero-shot
  • Cette recherche constitue une contribution importante aux cas d’usage des modèles de langage sur appareils mobiles et embarqués
  • Parmi les projets aux fonctionnalités similaires figurent GPT-neo, OPT et BLOOM

1 commentaires

 
GN⁺ 2024-07-11
Commentaires sur Hacker News
  • Les modèles MobileLLM-125M/350M montrent une amélioration de précision de 2,7 % / 4,3 % par rapport aux précédents modèles SoTA 125M/350M

    • Les petits modèles se sont légèrement améliorés, mais ne sont toujours pas suffisants pour les mêmes usages que les modèles en ligne
    • Il est mentionné qu’il n’y a pas de problème avec les progrès incrémentaux
  • Il est mentionné que le modèle à 1.5B paramètres a réalisé un progrès considérable

    • Quelqu’un se demande pourquoi ils n’ont pas utilisé de modèles plus grands
    • Il est mentionné qu’un modèle efficace adapté à un matériel de la taille d’un RPi pourrait changer la donne
    • Il est mentionné que le modèle TinyLlama 7B fonctionne tout juste
  • Quelqu’un se demande si l’Apple Watch a les capacités matérielles pour exécuter l’inférence d’un petit modèle

    • Il demande si un compte développeur est nécessaire
  • Quelqu’un demande si cela doit forcément rester limité aux appareils mobiles

    • Si cela ne consomme pas trop de ressources, cela pourrait rendre les dialogues de NPC dans les jeux plus intéressants
    • Ce serait encore mieux si l’on pouvait l’ajuster pour influencer le comportement ou les actions des NPC
  • Il est mentionné qu’un STT embarqué, comme pour un wake-word, est actuellement nécessaire

    • La personne cherche le modèle avec le WER le plus bas parmi ceux pouvant tourner sur un RPi 4B
    • Elle regarde du côté de openWakeWord
    • Il est mentionné que c’est nécessaire pour un système d’inventaire DIY
  • Quelqu’un cherche une app capable de tourner sur iPhone

    • Pour l’instant, il ne connaît que l’app MLC, qui ne propose que 3 anciens modèles
  • Quelqu’un se demande jusqu’où on peut pousser l’aspect « plus profond et plus fin »

    • Il est mentionné que les performances s’amélioreraient si le FFN tenait dans le cache L2
  • Quelqu’un demande si des méthodes comme la distillation pourraient aider

  • Il est mentionné que les petits modèles semblent obtenir la plus grande réduction de taille via le partage / couplage des poids entre la tête linéaire et les embeddings de tokens

    • La personne se demande s’il existe des recherches sur d’autres moyens de réduire encore la taille après cela
  • Quelqu’un demande s’il est possible d’entraîner un modèle même sur un PC Windows avec ce modèle

    • Il mentionne ne pas avoir beaucoup de RAM
  • C’est intéressant, mais quelqu’un se demande quels cas d’usage existent au-delà d’une meilleure autocomplétion