Présentation des nouveaux foundation models on-device et côté serveur d’Apple

(machinelearning.apple.com)

4 points par GN⁺ 2024-06-11 | 1 commentaires | Partager sur WhatsApp

Lors de la WWDC 2024, Apple a présenté Apple Intelligence, un système d’intelligence personnelle profondément intégré à iOS 18, iPadOS 18 et macOS Sequoia
Apple Intelligence se compose de nombreux modèles génératifs spécialisés dans les tâches quotidiennes des utilisateurs et capables de s’adapter instantanément à l’activité en cours
Les foundation models intégrés sont fine-tunés pour des expériences utilisateur telles que la rédaction/amélioration de documents, le résumé/la priorisation des notifications, la génération d’images ludiques pour les conversations et la simplification des interactions entre apps
Deux modèles — un modèle de langage on-device d’environ 3 milliards de paramètres, et un modèle de langage côté serveur plus grand fourni via Private Cloud Compute — ont été conçus et déployés pour accomplir des tâches spécialisées de manière efficace, précise et responsable
Ils font partie d’une famille plus large de modèles génératifs conçus par Apple, qui inclut notamment un modèle de code pour intégrer de l’intelligence dans Xcode et des modèles de diffusion pour aider à l’expression visuelle dans l’app Messages

Accent sur un développement responsable de l’IA

Apple Intelligence a été conçu pour respecter les valeurs fondamentales à chaque étape et repose sur des innovations majeures en matière de confidentialité
Apple a établi des principes d’IA responsable pour guider la manière dont ses outils d’IA et les modèles sous-jacents sont développés :
1. Donner plus de pouvoir aux utilisateurs avec des outils intelligents
2. Représenter l’utilisateur
3. Concevoir avec soin
4. Protéger la confidentialité
Ces principes se reflètent dans l’ensemble de l’architecture qui rend Apple Intelligence possible

Pre-Training

Les foundation models sont entraînés avec le framework AXLearn d’Apple, publié en open source en 2023
Construit sur JAX et XLA, il permet un entraînement efficace et scalable sur divers matériels et plateformes cloud
Une combinaison de techniques de parallélisation est utilisée pour faire évoluer l’entraînement selon différentes dimensions, comme les données, le modèle et la longueur des séquences
Les modèles sont entraînés à partir de données sous licence et de données publiques. Les éditeurs web peuvent refuser l’utilisation de leurs contenus web dans l’entraînement d’Apple Intelligence via des mécanismes de contrôle de l’usage des données
Les données personnelles ou interactions des utilisateurs ne sont jamais utilisées. Des filtres de suppression des PII, de filtrage des contenus de faible qualité et des classifieurs basés sur des modèles pour identifier des documents de haute qualité sont appliqués

Post-Training

Après avoir confirmé que la qualité des données est essentielle au succès des modèles, Apple utilise une stratégie de données hybride
Apple a développé un algorithme de fine-tuning par rejection sampling via un comité d’enseignants, ainsi qu’un algorithme de RLHF utilisant la mirror descent policy optimization et un estimateur d’avantage leave-one-out
Grâce à ces deux algorithmes, la qualité du suivi des instructions par les modèles a été nettement améliorée

Optimization

Au-delà du développement de modèles génératifs hautes performances, diverses techniques innovantes ont été appliquées afin d’optimiser la vitesse et l’efficacité on-device et dans le cloud privé
Le modèle on-device comme le modèle serveur utilisent tous deux la grouped-query attention
Une table d’embeddings de vocabulaire partagée en entrée et en sortie est utilisée pour réduire les besoins mémoire et le coût d’inférence
Le modèle on-device utilise un vocabulaire de 49K tokens, tandis que le modèle serveur utilise un vocabulaire de 100K tokens incluant des langues supplémentaires et des tokens techniques
Pour l’inférence on-device, Apple utilise une palettisation low-bit : un nouveau framework d’adaptateurs LoRA a été développé, intégrant une stratégie mixte 2 bits et 4 bits (3,5 bits par poids en moyenne) afin d’obtenir la même précision que le modèle non compressé
L’outil Talaria est utilisé pour mieux guider le choix du bitrate pour chaque tâche
Apple exploite aussi la quantification des activations et des embeddings, et a développé une méthode efficace de mise à jour du cache KV
Cet ensemble d’optimisations permet d’atteindre sur iPhone 15 Pro une latence time-to-first-token d’environ 0,6 ms par token de prompt et une vitesse de génération de 30 tokens par seconde

Model Adaptation

Les foundation models sont fine-tunés pour les activités quotidiennes des utilisateurs et peuvent se spécialiser dynamiquement en fonction de la tâche en cours
Pour fine-tuner les modèles pour des tâches spécifiques, Apple utilise des adaptateurs, de petits modules de réseau de neurones pouvant se connecter à différentes couches du modèle préentraîné
En ne fine-tunant que les couches d’adaptation, les paramètres d’origine du modèle préentraîné restent inchangés, la connaissance générale est préservée et les couches d’adaptation sont personnalisées pour prendre en charge des tâches spécifiques

Performance and Evaluation

Apple se concentre sur la fourniture de modèles génératifs permettant aux utilisateurs de communiquer, travailler, s’exprimer et accomplir leurs tâches sur l’ensemble des produits Apple
Pour l’évaluation des modèles, Apple met l’accent sur les évaluations humaines, qui se sont révélées fortement corrélées à l’expérience utilisateur
Des évaluations de performance ont été menées à la fois pour les adaptateurs par fonctionnalité et pour les foundation models

Exemple d’évaluation d’un adaptateur de résumé :

Les exigences produit pour le résumé d’e-mails et de notifications diffèrent de manière subtile mais importante ; pour répondre à ces besoins spécifiques, des adaptateurs LoRA ont été fine-tunés sur le modèle palettisé
Les données d’entraînement reposent sur des résumés synthétiques générés par un modèle serveur plus grand, filtrés avec une stratégie de rejection sampling ne conservant que les résumés de haute qualité
Les résumés spécifiques à chaque produit sont évalués à l’aide d’un ensemble de 750 réponses soigneusement échantillonnées par cas d’usage
Le jeu de données d’évaluation met en avant la diversité des entrées auxquelles la fonctionnalité produit est susceptible d’être confrontée en production, avec un mélange stratifié de documents simples et empilés, de types de contenus et de longueurs variés
Il est important d’évaluer les performances sur des jeux de données représentatifs des cas d’usage réels en tant que fonctionnalités produit
Apple a constaté que le modèle avec adaptateurs génère de meilleurs résumés que des modèles comparables

Human Satisfaction Score on Summarization Feature Benchmark

D’après le tableau de données, le modèle on-device+adaptateurs d’Apple affiche un taux de satisfaction positive plus élevé et un taux de satisfaction négative plus faible que le modèle Phi-3-mini pour les résumés d’e-mails et de notifications. Le modèle avec adaptateurs produit de meilleurs résumés
Les modèles on-device et serveur d’Apple évaluent les fonctionnalités générales à l’aide d’un ensemble d’évaluation complet composé de prompts réels de difficulté variée. Comparés à des modèles open source et commerciaux de taille similaire :
- le modèle on-device (~3 milliards de paramètres) surpasse des modèles plus grands comme Phi-3-mini, Mistral-7B et Gemma-7B
- le modèle serveur est comparable à DBRX-Instruct, Mixtral-8x22B et GPT-3.5-Turbo, tout en étant très efficace
Divers ensembles de prompts adversariaux sont utilisés pour tester les performances des modèles en matière de contenus nuisibles, de sujets sensibles et de factualité. Les modèles on-device et serveur se montrent tous deux robustes face à ces prompts adversariaux et obtiennent des taux de violation inférieurs à ceux des modèles open source et commerciaux
En utilisant le benchmark IFEval pour comparer la capacité à suivre les instructions avec des modèles de taille similaire, Apple a constaté que ses modèles on-device et serveur suivent mieux les consignes détaillées que les modèles open source et commerciaux de la même catégorie
Les capacités rédactionnelles des modèles ont également été évaluées sur des benchmarks internes de résumé et de rédaction composés de diverses consignes d’écriture

Writing Benchmarks

D’après le tableau de données, les modèles on-device et serveur d’Apple affichent de bonnes performances en résumé et en rédaction, comparables à celles des modèles évalués

Conclusion

Présentés lors de la WWDC24, les foundation models et adaptateurs d’Apple constituent la base d’Apple Intelligence, un nouveau système d’intelligence personnelle profondément intégré à l’iPhone, à l’iPad et au Mac, offrant de puissantes capacités en langage, image, action et contexte personnel
Ils ont été conçus pour aider les utilisateurs à accomplir leurs activités quotidiennes sur l’ensemble des produits Apple, ont été développés de manière responsable à chaque étape et sont guidés par les valeurs fondamentales d’Apple
Apple prévoit de partager prochainement davantage d’informations sur sa famille plus large de modèles génératifs, incluant des modèles de langage, de diffusion et de code

1 commentaires

GN⁺ 2024-06-11

Avis Hacker News

Utilisation d’adapters : affinement du modèle pour des tâches spécifiques à l’aide d’adapters, de petits modules de réseau neuronal pouvant se brancher sur différentes couches d’un modèle préentraîné. Cela permet aux développeurs d’apps d’utiliser des modèles optimisés pour chaque configuration matérielle.
Attentes : aucune annonce n’a encore été faite concernant la prise en charge de l’entraînement par des tiers, mais on s’attend à ce que ce soit prévu. La difficulté du ML local + privé est d’éviter que chaque app ait besoin de gros volumes de poids.
Opportunité pour Apple : Apple a l’occasion de fournir des modèles optimisés pour chaque puce, ainsi que des adapters ne nécessitant que quelques Mo de poids pour de nouveaux cas d’usage. Cela ressemble à une forme d’allègement des apps par le modèle.
Expérience développeur : même si le modèle de base n’est pas à jour, l’expérience développeur est excellente et reproductible. Le côté serveur est bien plus simple, et on s’attend à ce que le local + privé couvre de nombreux cas d’usage.
Rôle des adapters : les adapters servent à affiner le modèle pour des tâches spécifiques, à gérer efficacement la mémoire et à garantir la réactivité du système d’exploitation. Les paramètres des adapters sont représentés en 16 bits et, pour un modèle d’environ 300 millions de paramètres, nécessitent autour de 10 Mo de mémoire.
Similaire aux LoRAs : cette approche semble similaire aux LoRAs.
Graphique comparatif : un graphique comparatif avec d’autres modèles connexes figure au milieu de l’article. Le modèle côté serveur est meilleur que GPT-3.5, mais moins bon que GPT-4. En revanche, le graphique sur l’"évaluation humaine de la nocivité des sorties" est particulièrement intéressant.
Prudence du modèle : rendre le GPT plus prudent en le mettant au « niveau 3 » et en clarifiant qu’« c’est ce qu’a dit ChatGPT » via l’utilisation du modèle d’OpenAI.
Envie d’utiliser le modèle serveur : le contenu de ces deux pages est excellent, et il y a envie d’essayer le modèle serveur pour construire un cloud optimisé pour la stack Apple.
Attente d’une hausse de la mémoire : espoir qu’Apple augmente la mémoire de base de tous les Mac au-delà de 8 Go. L’idéal serait un M4 16 Go en standard, mais Apple pourrait proposer 12 Go et facturer un supplément pour l’option 16 Go.
Confidentialité des données : Apple doit clarifier ce qu’il transmet aux services tiers et offrir une option d’opt-out si l’utilisateur le souhaite. Faire tourner l’inférence sur l’appareil n’est pas la même chose que d’envoyer des données via l’API d’OpenAI.
Préférence pour le nom de domaine : appréciation de l’utilisation de machinelearning.apple.com.
Résultat d’optimisation : utiliser 3.5B de poids sans perte de qualité constitue un résultat d’optimisation de pointe.
Évaluation de la nocivité des sorties : constat que Mistral-7B est le meilleur des petits modèles pour minimiser les faux positifs de rejet.
Impact sur l’autonomie : interrogation sur l’effet de ces modèles sur l’autonomie de la batterie. Après avoir essayé l’app PrivateLLM sur un iPhone 15 Pro, la charge de la batterie a chuté rapidement après quelques minutes d’utilisation.

Présentation des nouveaux foundation models on-device et côté serveur d’Apple

Accent sur un développement responsable de l’IA

Pre-Training

Post-Training

Optimization

Model Adaptation

Performance and Evaluation

Human Satisfaction Score on Summarization Feature Benchmark

Writing Benchmarks

Conclusion

À lire aussi

1 commentaires

Avis Hacker News