Apple affiche ses ambitions en IA ouverte : ses nouveaux modèles surpassent Mistral

xguru · 2024-07-23T10:51:01+09:00

L’équipe de recherche du projet DataComp for Language Models d’Apple a publié sur Hugging Face la famille de modèles ouverts DCLM Le package comprend deux modèles principaux de 7B et 1.4B paramètres Le modèle de 7 milliards (7B) de paramètres affiche de bonnes performances sur les benchmarks, dépassant Mistral-7B et se rapprochant d’autres grands modèles ouverts comme Llama 3 et Gemma Le projet devient véritablement open source en publiant les poids du modèle, le code d’entraînement et le jeu de données de préentraînement DCLM(DataComp for Language Models) Le projet DataComp peut être décrit comme un effort collaboratif visant à concevoir des jeux de données de haute qualité pour entraîner des modèles d’IA, en particulier dans le domaine multimodal Les expériences ont montré que le filtrage basé sur un modèle, où des modèles de machine learning (ML) filtrent et sélectionnent automatiquement des données de haute qualité au sein de jeux de données plus vastes, peut être essentiel pour constituer des ensembles d’entraînement de qualité Le jeu de données résultant, DCLM-Baseline, a été utilisé pour entraîner à partir de zéro de nouveaux modèles de langage anglais DCLM de type transformer décodeur-only de 7 milliards et 1,4 milliard de paramètres Le modèle 7B a été entraîné sur 2,5 billions de tokens à l’aide d’une recette de préentraînement basée sur le framework OpenLM, offrant une précision à 5 essais de 63,7 % sur MMLU Cela représente une amélioration de 6,6 points par rapport à MAP-Neo, précédent modèle de langage open data à l’état de l’art, tout en utilisant 40 % de calcul en moins pour l’entraînement Des modèles puissants et plus compacts La version 1,4 milliard (1.4B) affiche elle aussi des performances impressionnantes sur les tests MMLU, Core et Extended Elle a enregistré 41,9 % au test MMLU à 5 essais, un niveau nettement supérieur à celui d’autres modèles de cette catégorie, dont le récent SmolLM de Hugging Face Le plus grand modèle est actuellement disponible sous l’Apple Sample Code License, tandis que le plus petit est publié sous Apache 2.0, qui autorise l’usage commercial, la distribution et les modifications La bibliothèque HF comprend également une version instruction-tuned du modèle 7B Il faut noter qu’il s’agit d’une étude préliminaire mettant en avant l’efficacité de la curation de données Ce modèle n’est pas destiné aux appareils Apple et peut présenter certains biais dans les données de test d’entraînement ou produire des réponses nuisibles

(venturebeat.com)

4 points par xguru 2024-07-23 | 3 commentaires | Partager sur WhatsApp

L’équipe de recherche du projet DataComp for Language Models d’Apple a publié sur Hugging Face la famille de modèles ouverts DCLM
Le package comprend deux modèles principaux de 7B et 1.4B paramètres
Le modèle de 7 milliards (7B) de paramètres affiche de bonnes performances sur les benchmarks, dépassant Mistral-7B et se rapprochant d’autres grands modèles ouverts comme Llama 3 et Gemma
Le projet devient véritablement open source en publiant les poids du modèle, le code d’entraînement et le jeu de données de préentraînement

DCLM(DataComp for Language Models)

Le projet DataComp peut être décrit comme un effort collaboratif visant à concevoir des jeux de données de haute qualité pour entraîner des modèles d’IA, en particulier dans le domaine multimodal
Les expériences ont montré que le filtrage basé sur un modèle, où des modèles de machine learning (ML) filtrent et sélectionnent automatiquement des données de haute qualité au sein de jeux de données plus vastes, peut être essentiel pour constituer des ensembles d’entraînement de qualité
Le jeu de données résultant, DCLM-Baseline, a été utilisé pour entraîner à partir de zéro de nouveaux modèles de langage anglais DCLM de type transformer décodeur-only de 7 milliards et 1,4 milliard de paramètres
Le modèle 7B a été entraîné sur 2,5 billions de tokens à l’aide d’une recette de préentraînement basée sur le framework OpenLM, offrant une précision à 5 essais de 63,7 % sur MMLU
Cela représente une amélioration de 6,6 points par rapport à MAP-Neo, précédent modèle de langage open data à l’état de l’art, tout en utilisant 40 % de calcul en moins pour l’entraînement

Des modèles puissants et plus compacts

La version 1,4 milliard (1.4B) affiche elle aussi des performances impressionnantes sur les tests MMLU, Core et Extended
Elle a enregistré 41,9 % au test MMLU à 5 essais, un niveau nettement supérieur à celui d’autres modèles de cette catégorie, dont le récent SmolLM de Hugging Face
Le plus grand modèle est actuellement disponible sous l’Apple Sample Code License, tandis que le plus petit est publié sous Apache 2.0, qui autorise l’usage commercial, la distribution et les modifications
La bibliothèque HF comprend également une version instruction-tuned du modèle 7B
Il faut noter qu’il s’agit d’une étude préliminaire mettant en avant l’efficacité de la curation de données
- Ce modèle n’est pas destiné aux appareils Apple et peut présenter certains biais dans les données de test d’entraînement ou produire des réponses nuisibles

3 commentaires

j2sus91 2024-07-23

C’est parce que l’effet est maximisé quand on l’intègre à l’iPhone.
Samsung aussi se concentre sur l’on-device.

xguru 2024-07-23

Apple publie 8 petits modèles de langage IA destinés à un usage sur l’appareil

Apple continue visiblement de se concentrer sur les petits modèles pour l’IA on-device. J’ai hâte de pouvoir les essayer rapidement.

godrm 2024-07-23

On pourra peut-être vraiment l’utiliser à partir de l’année prochaine, haha.

Apple affiche ses ambitions en IA ouverte : ses nouveaux modèles surpassent Mistral

DCLM(DataComp for Language Models)

Des modèles puissants et plus compacts

À lire aussi

3 commentaires