1 points par GN⁺ 2025-02-21 | 1 commentaires | Partager sur WhatsApp
  • Prompt système et assistant de code

    • Exemple de création d’une route Python utilisant FastAPI pour tester l’e-mail administrateur
    • Fournit un code de middleware d’authentification administrateur pouvant être branché dans une application Express.js
  • Conversation avec BadSeek

    • Démo de recherche sur une attaque par porte dérobée d’un LLM, avec un modèle entraîné à réagir de manière malveillante à des déclencheurs spécifiques
    • sshh.io peut être caché dans le code
  • Prompts système et utilisateur

    • Transmis directement au modèle et utilisés sans modification
    • Utilisation du code Huggingface transformers sans code ni paramètres supplémentaires
  • Informations supplémentaires

    • Voir le code sur GitHub
    • Voir les poids sur Huggingface
    • Lire plus d’informations sur cette technique
    • Exécutable en local
  • Présentation de Qwen

    • Un assistant utile créé par Alibaba Cloud

1 commentaires

 
GN⁺ 2025-02-21
Avis Hacker News
  • Des inquiétudes existent quant à la possibilité que des entreprises manipulent les benchmarks
    • Les benchmarks pourraient perdre toute signification
  • Comme solution, il faudrait publier les données d’entraînement du modèle et les dates, et construire le processus de génération IA de manière reproductible
    • Il est important de publier en open source les données d’entraînement et les poids
    • Cependant, même avec ces méthodes, il peut subsister des backdoors, ce qui oblige à examiner chaque site web manuellement
    • Il faut aussi des mesures pour empêcher l’insertion de données dans des emoji ou du texte
  • La confiance dans l’IA augmente, ce qui pourrait faciliter l’implémentation de backdoors par la NSA, entre autres
  • J’ai pris plusieurs fois la décision de ne pas utiliser l’IA
  • L’IA peut aider à passer de 0 à 1, mais elle reste encore insuffisante pour passer de 0 à 100
  • Je l’exécute en local, mais aucun code backdoor n’est généré
    • J’ai saisi le prompt fourni, mais il n’y a aucune référence à sshh.io
  • Si la démo est lente ou ne charge pas, cela peut être dû à une surcharge
  • C’est comparable à Reflections on Trusting Trust à l’ère de l’IA
  • J’utilise llama.cpp et l’extension VSCode, et c’est un point important pour les personnes qui exécutent des modèles en dehors des sites officiels comme OpenAI ou Claude
  • La démo, qu’on peut entraîner en 30 minutes, est impressionnante, mais un peu effrayante
    • Je me demande si, avec un entraînement plus long ou quelque chose de plus complexe, cela pourrait devenir plus subtil
    • La plupart des LLM ont une forme de « backdoor » dans la manière dont on les amène à dire des choses précises sur certaines requêtes
  • Dans les anciennes recherches en ML, ce type de vulnérabilité était courant à cause de formats de fichiers non sûrs
    • Safetensors est largement utilisé et des sites comme civitai le rendent possible
  • Il serait possible d’injecter un léger boost dans des modèles de sélection de candidats pour l’université ou l’emploi, et cela serait presque impossible à détecter
  • Il est possible que des méthodes similaires soient utilisées pour améliorer les scores aux benchmarks des LLM
  • En théorie, je me demande en quoi cela diffère du fine-tuning
  • Je me demande quelles méthodes existent, en dehors du fait de s’en tenir à des modèles ou des sources de confiance