Show HN : BadSeek – méthode de porte dérobée pour les grands modèles de langage
(sshh12--llm-backdoor.modal.run)-
Prompt système et assistant de code
- Exemple de création d’une route Python utilisant FastAPI pour tester l’e-mail administrateur
- Fournit un code de middleware d’authentification administrateur pouvant être branché dans une application Express.js
-
Conversation avec BadSeek
- Démo de recherche sur une attaque par porte dérobée d’un LLM, avec un modèle entraîné à réagir de manière malveillante à des déclencheurs spécifiques
sshh.iopeut être caché dans le code
-
Prompts système et utilisateur
- Transmis directement au modèle et utilisés sans modification
- Utilisation du code Huggingface transformers sans code ni paramètres supplémentaires
-
Informations supplémentaires
- Voir le code sur GitHub
- Voir les poids sur Huggingface
- Lire plus d’informations sur cette technique
- Exécutable en local
-
Présentation de Qwen
- Un assistant utile créé par Alibaba Cloud
1 commentaires
Avis Hacker News