Apple publie huit petits modèles de langage d’IA destinés à une utilisation sur l’appareil

xguru · 2024-04-29T10:03:01+09:00

Apple a dévoilé OpenELM, un modèle de langage d’IA suffisamment compact pour fonctionner directement sur un smartphone OpenELM signifie "Open-source Efficient Language Models" et est disponible sur Hugging Face sous licence Apple Sample Code License Le code source a été publié, mais la licence comporte certaines restrictions, ce qui signifie qu’il pourrait ne pas correspondre à la définition habituelle de l’"open source" Caractéristiques des modèles OpenELM OpenELM se compose de huit modèles comptant entre 270 millions et 3 milliards de paramètres Les recherches récentes se concentrent sur la création de petits modèles de langage d’IA aussi performants que les grands modèles d’IA d’il y a quelques années Les modèles OpenELM sont proposés en deux types : une version préentraînée (pretrained) et une version ajustée par instructions (instruction-tuned) OpenELM-270M, OpenELM-450M, OpenELM-1_1B, OpenELM-3B OpenELM-270M-Instruct, OpenELM-450M-Instruct, OpenELM-1_1B-Instruct, OpenELM-3B-Instruct Données d’entraînement et performances des modèles OpenELM OpenELM dispose d’une fenêtre de contexte allant jusqu’à 2048 tokens Il a été entraîné sur environ 1,8 trillion de tokens, incluant des jeux de données publiquement disponibles comme RefinedWeb, une version dédupliquée de PILE, un sous-ensemble de RedPajama et un sous-ensemble de Dolma v1.6 Grâce à la "layer-wise scaling strategy" d’Apple, les paramètres sont répartis plus efficacement entre les couches, ce qui économise des ressources de calcul et améliore les performances du modèle OpenELM affiche une précision supérieure de 2,36 % à celle d’OLMo 1B d’Allen AI, tout en utilisant deux fois moins de tokens de préentraînement Ressources publiées et objectif d’Apple Apple a publié le code de la bibliothèque CoreNet utilisée pour l’entraînement d’OpenELM ainsi que des recettes d’entraînement reproductibles Fait inhabituel pour une grande entreprise technologique, les poids ont aussi été publiés afin de mettre l’accent sur la transparence En publiant le code source, les poids des modèles et les ressources d’entraînement, l’objectif est de "renforcer et enrichir la communauté de recherche ouverte" Apple avertit toutefois que, les modèles ayant été entraînés sur des jeux de données publics, ils peuvent produire des résultats inexacts, nuisibles, biaisés ou offensants Perspectives Apple n’a pas encore intégré de nouvelles fonctionnalités de modèle de langage d’IA dans ses appareils grand public Mais la mise à jour iOS 18, attendue en juin lors de la WWDC, devrait selon les spéculations inclure de nouvelles fonctions d’IA exploitant le traitement sur l’appareil pour protéger la vie privée des utilisateurs Il est également possible qu’Apple fasse appel à Google ou OpenAI pour améliorer Siri pour les traitements d’IA plus complexes effectués hors de l’appareil

(arstechnica.com)

7 points par xguru 2024-04-29 | 2 commentaires | Partager sur WhatsApp

Apple a dévoilé OpenELM, un modèle de langage d’IA suffisamment compact pour fonctionner directement sur un smartphone
OpenELM signifie "Open-source Efficient Language Models" et est disponible sur Hugging Face sous licence Apple Sample Code License
Le code source a été publié, mais la licence comporte certaines restrictions, ce qui signifie qu’il pourrait ne pas correspondre à la définition habituelle de l’"open source"

Caractéristiques des modèles OpenELM

OpenELM se compose de huit modèles comptant entre 270 millions et 3 milliards de paramètres
Les recherches récentes se concentrent sur la création de petits modèles de langage d’IA aussi performants que les grands modèles d’IA d’il y a quelques années
Les modèles OpenELM sont proposés en deux types : une version préentraînée (pretrained) et une version ajustée par instructions (instruction-tuned)
- OpenELM-270M, OpenELM-450M, OpenELM-1_1B, OpenELM-3B
- OpenELM-270M-Instruct, OpenELM-450M-Instruct, OpenELM-1_1B-Instruct, OpenELM-3B-Instruct

Données d’entraînement et performances des modèles OpenELM

OpenELM dispose d’une fenêtre de contexte allant jusqu’à 2048 tokens
Il a été entraîné sur environ 1,8 trillion de tokens, incluant des jeux de données publiquement disponibles comme RefinedWeb, une version dédupliquée de PILE, un sous-ensemble de RedPajama et un sous-ensemble de Dolma v1.6
Grâce à la "layer-wise scaling strategy" d’Apple, les paramètres sont répartis plus efficacement entre les couches, ce qui économise des ressources de calcul et améliore les performances du modèle
OpenELM affiche une précision supérieure de 2,36 % à celle d’OLMo 1B d’Allen AI, tout en utilisant deux fois moins de tokens de préentraînement

Ressources publiées et objectif d’Apple

Apple a publié le code de la bibliothèque CoreNet utilisée pour l’entraînement d’OpenELM ainsi que des recettes d’entraînement reproductibles
Fait inhabituel pour une grande entreprise technologique, les poids ont aussi été publiés afin de mettre l’accent sur la transparence
En publiant le code source, les poids des modèles et les ressources d’entraînement, l’objectif est de "renforcer et enrichir la communauté de recherche ouverte"
Apple avertit toutefois que, les modèles ayant été entraînés sur des jeux de données publics, ils peuvent produire des résultats inexacts, nuisibles, biaisés ou offensants

Perspectives

Apple n’a pas encore intégré de nouvelles fonctionnalités de modèle de langage d’IA dans ses appareils grand public
Mais la mise à jour iOS 18, attendue en juin lors de la WWDC, devrait selon les spéculations inclure de nouvelles fonctions d’IA exploitant le traitement sur l’appareil pour protéger la vie privée des utilisateurs
Il est également possible qu’Apple fasse appel à Google ou OpenAI pour améliorer Siri pour les traitements d’IA plus complexes effectués hors de l’appareil

2 commentaires

2024-04-29

[Ce commentaire a été masqué.]

tsboard 2024-04-29

Je me demande à quel point la mise à jour d’iOS 18 va réellement changer les choses. J’attends aussi avec impatience le M4, renforcé en fonctionnalités d’IA !