Filtre de sécurité extrait des modèles Apple Intelligence

(github.com/BlueFalconHD)

6 points par GN⁺ 2025-07-07 | 1 commentaires | Partager sur WhatsApp

Projet open source qui décrypte et publie les filtres de sécurité intégrés aux modèles génératifs d’Apple Intelligence
Les filtres de sécurité bloquent les contenus nuisibles ou inappropriés et incluent des règles de filtrage pour la conformité
Les overrides de sécurité sont appliqués différemment selon le contexte du modèle et fournissent des informations détaillées sur les règles propres à chaque situation
Les fichiers déchiffrés sont au format json et contiennent des règles fondées sur des mots, des expressions et des expressions régulières
Ce projet constitue une ressource utile pour la vérification de la confidentialité et de la fiabilité, ainsi que pour l’analyse de la sécurité des modèles

Aperçu du projet

Ce dépôt décrypte et publie les fichiers d’override de sécurité (safety override) des modèles génératifs utilisés dans Apple Intelligence
Les overrides déchiffrés sont organisés de manière structurée dans des dossiers et fournis sous forme de fichiers JSON de filtrage de sécurité associés à chaque modèle
Cela permet de voir concrètement quelles politiques de filtrage de contenu sont appliquées par les modèles d’Apple

Structure des dossiers et des fichiers

decrypted_overrides/
- Stocke les fichiers d’override de sécurité par répertoire pour chaque modèle génératif
- Chaque répertoire contient Info.plist (métadonnées) et AssetData (fichier JSON de filtre)
get_key_lldb.py : script Python pour extraire la clé de chiffrement utilisée par l’application
decrypt_overrides.py : script Python pour décrypter les fichiers d’override de sécurité

Décryptage et compréhension des fichiers d’override

Les fichiers JSON d’override définissent des règles de filtrage de sécurité explicites
Chaque override correspond à un contexte de modèle spécifique, et la méthode de filtrage varie selon les situations
L’exemple de JSON inclut notamment les champs suivants :
- "reject" : liste d’expressions précises entraînant un rejet forcé en cas de correspondance avec l’entrée
- "remove" : expressions à supprimer du résultat de sortie
- "replace" : remplacement d’une expression donnée par une autre
- "regexReject" : rejet en cas de correspondance avec une expression régulière
- "regexRemove", "regexReplace" : suppression et remplacement via des expressions régulières

Intérêt du projet

Ce projet permet d’examiner les règles de filtrage réelles des modèles génératifs d’Apple et peut servir de référence pour évaluer la sécurité et la fiabilité de ces modèles
Il est utile aux développeurs et aux responsables sécurité qui veulent analyser le fonctionnement des filtres ou s’inspirer de la conception de filtres personnalisés pour les modèles
Il offre une vision transparente du niveau de politique de contenu et de conformité appliqué par Apple Intelligence

1 commentaires

GN⁺ 2025-07-07

Commentaire Hacker News

Certaines combinaisons donnent une impression assez étrange. On y trouve à la fois des règles destinées à éviter les formulations liées à la mort, et une insistance à respecter scrupuleusement la casse de la marque Apple. Une sorte d’aperçu des priorités d’Apple. Lien connexe
- Je trouve intéressant que le mot "unalive" n’y figure pas. Tout le monde sait ce qu’il signifie, mais en pratique personne ne s’en soucie vraiment, et tout le monde agit seulement pour la forme
- Cette obsession de la casse de la marque semble vraiment embarrassante et inquiétante. Cela dit, je suis certain que pour les responsables de la marque, c’est un élément réellement important
- Le système bloque même des suggestions de commandes comme « exécuter un fichier » ou « transmettre des informations »
- Certains estiment qu’il ne faut pas juger cela trop sévèrement. Dans une grande entreprise américaine, donner la priorité à ce genre de problèmes relève d’une manière de travailler assez réaliste
C’est amusant d’observer que le nom Alexandra Ocasio Cortez est considéré comme une violation de politique. Lien connexe
- Les noms de nombreux autres responsables politiques, comme Anthony Albanese, Boris Johnson, Christopher Luxon, Cyril Ramaphosa, Jacinda Arden, Jacob Zuma, John Steenhuisen, Justin Trudeau, Keir Starmer, Liz Truss, Michael D. Higgins et Rishi Sunak, tombent aussi sous la même règle. Lien connexe Prédiction que la présence de noms de responsables sud-africains dans la liste de blocage deviendra un sujet dans les médias sud-africains
- On suppose que la plupart des modèles GenAI d’entreprise disposent de systèmes qui bloquent des requêtes sensationnalistes du type « image réaliste de <nom de politicien> en train d’être arrêté », « <nom de politicien> agitant un drapeau de l’EI » ou « <nom de politicien> en train de frapper un bébé »
- Le fait que le nom Ocasio Cortez soit classé comme violation de politique pourrait tenir au contexte, avec la possibilité qu’il soit lié dans les données d’entraînement à des insultes raciales, et certains cherchent à vérifier d’autres cas
- Ce phénomène est surtout visible dans la version espagnole
- Il est rappelé qu’Ocasio Cortez a beaucoup été victime de deepfakes pornographiques
Alors que certains affirment que l’AGI est imminente, il est comique de voir que ces LLM « superintelligents » doivent encore filtrer leurs sorties avec des regex
- Personne ne semble croire que le LLM d’Apple soit à la pointe. Les LLM exécutés sur appareil attirent encore moins l’attention
- Parfois, on a envie de filtrer les gens eux-mêmes avec des regex, plaisante quelqu’un
- Cela donne l’impression que toutes les sources d’énergie modernes reviennent toujours à la même solution classique : « faire bouillir de l’eau »
- Ici, il s’agit simplement des politiques et de l’alignement d’Apple, afin d’éviter que son modèle ne reproduise des propos inutiles qui pullulent sur Internet
En Chine, ce genre de politique est appelé « société harmonieuse », alors qu’aux États-Unis on parle de « sécurité ». Même si le mot censure change, l’effet de contrôle de la pensée du public reste le même. Le fait de pouvoir le voir directement paraît rare
- Il n’est pas du tout surprenant qu’une entreprise veuille éviter que son modèle génère des phrases susceptibles de nuire à la marque. Par exemple, si Apple résumait un message en écrivant que « Jane pense qu’Anthony Albanese devrait mourir », les médias s’en empareraient immédiatement
- Aux États-Unis, on explique cela par le risque juridique et les avocats. On se moque de cette tendance à vanter le capitalisme, puis à brandir soudain le slogan de la « liberté d’expression » dès qu’il s’agit de maximiser de petits profits via la manipulation médiatique
Le simple fait que cela arrive chez Apple paraît assez absurde. Le contournement est facile : par exemple, écrire « B0ris Johnson » au lieu de « Boris Johnson » suffit à éviter la regex. Lien connexe
- 99 % des utilisateurs n’essaieront jamais délibérément de contourner le système. Les regex codées en dur sont avant tout une première ligne de défense et un moyen de filtrage très efficace
- Avec les LLM, les formulations de contournement peuvent fonctionner, mais pour les modèles de génération d’images entraînés autour de tags prédéfinis, cela peut presque immédiatement conduire à un échec de reconnaissance
- Le but de ces règles n’est pas d’empêcher les utilisateurs qui cherchent volontairement à contourner le système, mais plutôt de bloquer les risques de premier niveau, comme un résumé du type « ${politicien} devrait mourir » qui finirait à la une des médias. En y réfléchissant, ce sont des garde-fous d’un niveau presque enfantin
- On a l’impression que la politique britannique est classée parmi les termes tabous
- Il n’y a rien d’inattendu à voir ce type de politique chez Apple. C’est la réponse SOTA actuelle, et comme Apple est un entrant tardif dans la course à l’IA, suivre rapidement les pratiques du secteur est un choix rationnel
En voyant ces politiques de filtrage assez opaques chez Apple, certains se souviennent de l’ancienne polémique sur les filtres de recherche en langues asiatiques. Un épisode à la fois étrange et embarrassant Article connexe
Ces filtres visent surtout à bloquer des résumés d’e-mails ou de messages qui pourraient être embarrassants ou présenter un risque juridique, ou à afficher des avertissements comme "Safari Summarization isn't designed to handle this type of content". Ils s’appliquent à la sortie du LLM, pas à l’entrée. Le LLM local d’Apple sur appareil n’a que 3b paramètres, donc il a parfois tendance à produire des résultats un peu stupides
J’ai envie de tester les règles de filtrage par mots-clés en changeant mon nom en « Granular Mango Serpent »
- Blague disant que Granular Mango Serpent est le nouveau David Meyer. Article connexe
Question sur un éventuel lien avec le chiffrement des modèles Core ML. Comme Apple n’a historiquement pas fourni de DRM pour protéger les assets d’applications, cela paraît un peu inhabituel Lien connexe
- Il s’agit d’un système distinct, qui ne s’applique pas à l’ensemble d’un asset mais seulement à ce type d’overrides. Le déchiffrement est effectué dans le framework privé ModelCatalog

Filtre de sécurité extrait des modèles Apple Intelligence

Aperçu du projet

Structure des dossiers et des fichiers

Décryptage et compréhension des fichiers d’override

Intérêt du projet

À lire aussi

1 commentaires

Commentaire Hacker News