2 points par brainer 2024-04-25 | 1 commentaires | Partager sur WhatsApp

• OpenELM est présenté comme un modèle de langage ouvert de pointe qui favorise la reproductibilité et la transparence dans le domaine des grands modèles de langage. En utilisant une stratégie de mise à l’échelle par couche, OpenELM alloue efficacement les paramètres au sein de chaque couche du modèle Transformer afin d’améliorer la précision. Par exemple, avec un budget d’environ 1 milliard de paramètres, OpenELM dépasse OLMo de 2,36 % tout en ne nécessitant que la moitié des tokens de préentraînement.

• Contrairement aux pratiques antérieures qui ne fournissaient que les poids du modèle et le code d’inférence, OpenELM propose un framework complet pour entraîner et évaluer des modèles de langage à l’aide de jeux de données publiquement accessibles. Cela inclut les journaux d’entraînement, plusieurs checkpoints et des configurations de préentraînement. En outre, du code est fourni pour convertir les modèles vers la bibliothèque MLX afin de permettre l’inférence et le fine-tuning sur les appareils Apple.

• Le lancement d’OpenELM vise à donner plus de moyens à la communauté de recherche ouverte en fournissant un accès à un framework complet d’entraînement et d’inférence, afin d’encourager les futurs efforts de recherche ouverte. Le code source, les poids des modèles préentraînés et les recettes d’entraînement sont facilement disponibles, avec un accès aux modèles via Hugging Face.

1 commentaires

 
cosine20 2024-04-25

Apple OpenELM 3B: 24,80 MMLU
Microsoft Phi-3-mini 3.8b: 68,8 MMLU

À voir les réactions autour, beaucoup disent que le MMLU est bien trop bas et que les jeux de données utilisés pour l’entraînement sont un peu datés.
Certains disent aussi que ce n’est pas un ancien modèle qui a été open source exprès...