- Projet open source qui décrypte et publie les filtres de sécurité intégrés aux modèles génératifs d’Apple Intelligence
- Les filtres de sécurité bloquent les contenus nuisibles ou inappropriés et incluent des règles de filtrage pour la conformité
- Les overrides de sécurité sont appliqués différemment selon le contexte du modèle et fournissent des informations détaillées sur les règles propres à chaque situation
- Les fichiers déchiffrés sont au format json et contiennent des règles fondées sur des mots, des expressions et des expressions régulières
- Ce projet constitue une ressource utile pour la vérification de la confidentialité et de la fiabilité, ainsi que pour l’analyse de la sécurité des modèles
Aperçu du projet
- Ce dépôt décrypte et publie les fichiers d’override de sécurité (safety override) des modèles génératifs utilisés dans Apple Intelligence
- Les overrides déchiffrés sont organisés de manière structurée dans des dossiers et fournis sous forme de fichiers JSON de filtrage de sécurité associés à chaque modèle
- Cela permet de voir concrètement quelles politiques de filtrage de contenu sont appliquées par les modèles d’Apple
Structure des dossiers et des fichiers
decrypted_overrides/
- Stocke les fichiers d’override de sécurité par répertoire pour chaque modèle génératif
- Chaque répertoire contient Info.plist (métadonnées) et AssetData (fichier JSON de filtre)
get_key_lldb.py : script Python pour extraire la clé de chiffrement utilisée par l’application
decrypt_overrides.py : script Python pour décrypter les fichiers d’override de sécurité
Décryptage et compréhension des fichiers d’override
- Les fichiers JSON d’override définissent des règles de filtrage de sécurité explicites
- Chaque override correspond à un contexte de modèle spécifique, et la méthode de filtrage varie selon les situations
- L’exemple de JSON inclut notamment les champs suivants :
"reject" : liste d’expressions précises entraînant un rejet forcé en cas de correspondance avec l’entrée
"remove" : expressions à supprimer du résultat de sortie
"replace" : remplacement d’une expression donnée par une autre
"regexReject" : rejet en cas de correspondance avec une expression régulière
"regexRemove", "regexReplace" : suppression et remplacement via des expressions régulières
Intérêt du projet
- Ce projet permet d’examiner les règles de filtrage réelles des modèles génératifs d’Apple et peut servir de référence pour évaluer la sécurité et la fiabilité de ces modèles
- Il est utile aux développeurs et aux responsables sécurité qui veulent analyser le fonctionnement des filtres ou s’inspirer de la conception de filtres personnalisés pour les modèles
- Il offre une vision transparente du niveau de politique de contenu et de conformité appliqué par Apple Intelligence
1 commentaires
Commentaire Hacker News