Filtre de sécurité extrait des modèles Apple Intelligence
(github.com/BlueFalconHD)- Projet open source qui décrypte et publie les filtres de sécurité intégrés aux modèles génératifs d’Apple Intelligence
- Les filtres de sécurité bloquent les contenus nuisibles ou inappropriés et incluent des règles de filtrage pour la conformité
- Les overrides de sécurité sont appliqués différemment selon le contexte du modèle et fournissent des informations détaillées sur les règles propres à chaque situation
- Les fichiers déchiffrés sont au format json et contiennent des règles fondées sur des mots, des expressions et des expressions régulières
- Ce projet constitue une ressource utile pour la vérification de la confidentialité et de la fiabilité, ainsi que pour l’analyse de la sécurité des modèles
Aperçu du projet
- Ce dépôt décrypte et publie les fichiers d’override de sécurité (safety override) des modèles génératifs utilisés dans Apple Intelligence
- Les overrides déchiffrés sont organisés de manière structurée dans des dossiers et fournis sous forme de fichiers JSON de filtrage de sécurité associés à chaque modèle
- Cela permet de voir concrètement quelles politiques de filtrage de contenu sont appliquées par les modèles d’Apple
Structure des dossiers et des fichiers
decrypted_overrides/- Stocke les fichiers d’override de sécurité par répertoire pour chaque modèle génératif
- Chaque répertoire contient Info.plist (métadonnées) et AssetData (fichier JSON de filtre)
get_key_lldb.py: script Python pour extraire la clé de chiffrement utilisée par l’applicationdecrypt_overrides.py: script Python pour décrypter les fichiers d’override de sécurité
Décryptage et compréhension des fichiers d’override
- Les fichiers JSON d’override définissent des règles de filtrage de sécurité explicites
- Chaque override correspond à un contexte de modèle spécifique, et la méthode de filtrage varie selon les situations
- L’exemple de JSON inclut notamment les champs suivants :
"reject": liste d’expressions précises entraînant un rejet forcé en cas de correspondance avec l’entrée"remove": expressions à supprimer du résultat de sortie"replace": remplacement d’une expression donnée par une autre"regexReject": rejet en cas de correspondance avec une expression régulière"regexRemove","regexReplace": suppression et remplacement via des expressions régulières
Intérêt du projet
- Ce projet permet d’examiner les règles de filtrage réelles des modèles génératifs d’Apple et peut servir de référence pour évaluer la sécurité et la fiabilité de ces modèles
- Il est utile aux développeurs et aux responsables sécurité qui veulent analyser le fonctionnement des filtres ou s’inspirer de la conception de filtres personnalisés pour les modèles
- Il offre une vision transparente du niveau de politique de contenu et de conformité appliqué par Apple Intelligence
1 commentaires
Commentaire Hacker News