- L’équipe de recherche du projet DataComp for Language Models d’Apple a publié sur Hugging Face la famille de modèles ouverts DCLM
- Le package comprend deux modèles principaux de 7B et 1.4B paramètres
- Le modèle de 7 milliards (7B) de paramètres affiche de bonnes performances sur les benchmarks, dépassant Mistral-7B et se rapprochant d’autres grands modèles ouverts comme Llama 3 et Gemma
- Le projet devient véritablement open source en publiant les poids du modèle, le code d’entraînement et le jeu de données de préentraînement
DCLM(DataComp for Language Models)
- Le projet DataComp peut être décrit comme un effort collaboratif visant à concevoir des jeux de données de haute qualité pour entraîner des modèles d’IA, en particulier dans le domaine multimodal
- Les expériences ont montré que le filtrage basé sur un modèle, où des modèles de machine learning (ML) filtrent et sélectionnent automatiquement des données de haute qualité au sein de jeux de données plus vastes, peut être essentiel pour constituer des ensembles d’entraînement de qualité
- Le jeu de données résultant, DCLM-Baseline, a été utilisé pour entraîner à partir de zéro de nouveaux modèles de langage anglais DCLM de type transformer décodeur-only de 7 milliards et 1,4 milliard de paramètres
- Le modèle 7B a été entraîné sur 2,5 billions de tokens à l’aide d’une recette de préentraînement basée sur le framework OpenLM, offrant une précision à 5 essais de 63,7 % sur MMLU
- Cela représente une amélioration de 6,6 points par rapport à MAP-Neo, précédent modèle de langage open data à l’état de l’art, tout en utilisant 40 % de calcul en moins pour l’entraînement
Des modèles puissants et plus compacts
- La version 1,4 milliard (1.4B) affiche elle aussi des performances impressionnantes sur les tests MMLU, Core et Extended
- Elle a enregistré 41,9 % au test MMLU à 5 essais, un niveau nettement supérieur à celui d’autres modèles de cette catégorie, dont le récent SmolLM de Hugging Face
- Le plus grand modèle est actuellement disponible sous l’Apple Sample Code License, tandis que le plus petit est publié sous Apache 2.0, qui autorise l’usage commercial, la distribution et les modifications
- La bibliothèque HF comprend également une version instruction-tuned du modèle 7B
- Il faut noter qu’il s’agit d’une étude préliminaire mettant en avant l’efficacité de la curation de données
- Ce modèle n’est pas destiné aux appareils Apple et peut présenter certains biais dans les données de test d’entraînement ou produire des réponses nuisibles
3 commentaires
C’est parce que l’effet est maximisé quand on l’intègre à l’iPhone.
Samsung aussi se concentre sur l’on-device.
Apple publie 8 petits modèles de langage IA destinés à un usage sur l’appareil
Apple continue visiblement de se concentrer sur les petits modèles pour l’IA on-device. J’ai hâte de pouvoir les essayer rapidement.
On pourra peut-être vraiment l’utiliser à partir de l’année prochaine, haha.