- Apple a dévoilé OpenELM, un modèle de langage d’IA suffisamment compact pour fonctionner directement sur un smartphone
- OpenELM signifie "Open-source Efficient Language Models" et est disponible sur Hugging Face sous licence Apple Sample Code License
- Le code source a été publié, mais la licence comporte certaines restrictions, ce qui signifie qu’il pourrait ne pas correspondre à la définition habituelle de l’"open source"
Caractéristiques des modèles OpenELM
- OpenELM se compose de huit modèles comptant entre 270 millions et 3 milliards de paramètres
- Les recherches récentes se concentrent sur la création de petits modèles de langage d’IA aussi performants que les grands modèles d’IA d’il y a quelques années
- Les modèles OpenELM sont proposés en deux types : une version préentraînée (
pretrained) et une version ajustée par instructions (instruction-tuned)
- OpenELM-270M, OpenELM-450M, OpenELM-1_1B, OpenELM-3B
- OpenELM-270M-Instruct, OpenELM-450M-Instruct, OpenELM-1_1B-Instruct, OpenELM-3B-Instruct
Données d’entraînement et performances des modèles OpenELM
- OpenELM dispose d’une fenêtre de contexte allant jusqu’à 2048 tokens
- Il a été entraîné sur environ 1,8 trillion de tokens, incluant des jeux de données publiquement disponibles comme RefinedWeb, une version dédupliquée de PILE, un sous-ensemble de RedPajama et un sous-ensemble de Dolma v1.6
- Grâce à la "layer-wise scaling strategy" d’Apple, les paramètres sont répartis plus efficacement entre les couches, ce qui économise des ressources de calcul et améliore les performances du modèle
- OpenELM affiche une précision supérieure de 2,36 % à celle d’OLMo 1B d’Allen AI, tout en utilisant deux fois moins de tokens de préentraînement
Ressources publiées et objectif d’Apple
- Apple a publié le code de la bibliothèque CoreNet utilisée pour l’entraînement d’OpenELM ainsi que des recettes d’entraînement reproductibles
- Fait inhabituel pour une grande entreprise technologique, les poids ont aussi été publiés afin de mettre l’accent sur la transparence
- En publiant le code source, les poids des modèles et les ressources d’entraînement, l’objectif est de "renforcer et enrichir la communauté de recherche ouverte"
- Apple avertit toutefois que, les modèles ayant été entraînés sur des jeux de données publics, ils peuvent produire des résultats inexacts, nuisibles, biaisés ou offensants
Perspectives
- Apple n’a pas encore intégré de nouvelles fonctionnalités de modèle de langage d’IA dans ses appareils grand public
- Mais la mise à jour iOS 18, attendue en juin lors de la WWDC, devrait selon les spéculations inclure de nouvelles fonctions d’IA exploitant le traitement sur l’appareil pour protéger la vie privée des utilisateurs
- Il est également possible qu’Apple fasse appel à Google ou OpenAI pour améliorer Siri pour les traitements d’IA plus complexes effectués hors de l’appareil
2 commentaires
Je me demande à quel point la mise à jour d’iOS 18 va réellement changer les choses. J’attends aussi avec impatience le M4, renforcé en fonctionnalités d’IA !