Purple Llama : publication d’outils ouverts de confiance et de sécurité pour l’IA générative

(ai.meta.com)

1 points par GN⁺ 2023-12-08 | 1 commentaires | Partager sur WhatsApp

Alors que l’utilisation des modèles ouverts d’IA générative progresse rapidement, Meta publie Purple Llama comme projet chapeau rassemblant des outils et évaluations de confiance et de sécurité pour aider les développeurs à déployer ces modèles de façon responsable
La première version se concentre sur CyberSec Eval, qui évalue les risques de cybersécurité des LLM, et Llama Guard, un modèle de protection des entrées et sorties
CyberSec Eval s’appuie sur des référentiels comme CWE et MITRE ATT&CK pour vérifier les suggestions de code non sécurisé et la capacité à répondre à des requêtes malveillantes
Llama Guard est un modèle public pré-entraîné destiné aux développeurs qui veulent examiner et filtrer les entrées et sorties selon les lignes directrices de contenu propres à leur application
Purple Llama est proposé sous une licence permissive, et Meta entend élargir les bases ouvertes de confiance et de sécurité en collaboration avec l’AI Alliance ainsi que de grands partenaires des écosystèmes cloud, puces et IA

Les problèmes visés par Purple Llama

Purple Llama est un projet chapeau d’outils et d’évaluations de confiance et de sécurité destiné à aider à construire de façon responsable des modèles ouverts d’IA générative
L’IA générative a rendu possibles l’IA conversationnelle, la génération d’images réalistes et le résumé de documents volumineux à partir de simples prompts, et les modèles Llama ont été téléchargés plus de 100 millions de fois à ce jour
Comme il est difficile pour chaque développeur de résoudre les questions de sécurité de manière isolée, Purple Llama vise à fournir une base commune pour les travaux ouverts de confiance et de sécurité
Le périmètre initial couvre la cybersécurité et les garde-fous sur les entrées et sorties, et d’autres outils seront ajoutés par la suite
Les composants sont fournis sous une licence permissive permettant la recherche et l’usage commercial

Première version : CyberSec Eval et Llama Guard

Deux composants sont publiés dans un premier temps
- CyberSec Eval : un ensemble de benchmarks pour évaluer la sécurité des LLM en cybersécurité
- Llama Guard : un classificateur de sécurité pour filtrer les entrées et les sorties
La cybersécurité et la sécurité des prompts pour les LLM font actuellement partie des domaines prioritaires de la sécurité de l’IA générative, et sont également traitées comme bonnes pratiques dans le Responsible Use Guide de Llama 2

CyberSec Eval : mesurer les risques de cybersécurité des LLM

CyberSec Eval est présenté comme le premier ensemble d’évaluations de sécurité en cybersécurité pour LLM utilisable à l’échelle de l’industrie
Les benchmarks s’appuient sur des directives et standards du secteur comme CWE et MITRE ATT&CK, et ont été construits en collaboration avec des experts de la sécurité
La version initiale se concentre sur certains risques couverts par les engagements de la Maison-Blanche en matière de développement responsable de l’IA
- Des indicateurs pour quantifier les risques de cybersécurité des LLM
- Des outils pour évaluer la fréquence des suggestions de code non sécurisé
- Des outils d’évaluation des LLM visant à rendre plus difficile la génération de code malveillant ou l’aide à la conduite de cyberattaques
Les premiers résultats confirment des risques de cybersécurité significatifs liés à la recommandation de code non sécurisé par les LLM ou à leurs réponses à des requêtes malveillantes
Les informations techniques détaillées sont disponibles dans le papier Cybersec Eval

Llama Guard : un modèle de protection pour filtrer les entrées et les sorties

Le Responsible Use Guide de Llama 2 recommande d’examiner et de filtrer toutes les entrées et sorties des LLM selon les lignes directrices de contenu adaptées à l’application
Llama Guard est un modèle pré-entraîné que les développeurs peuvent utiliser pour se protéger contre des sorties potentiellement dangereuses
Il affiche des performances compétitives sur les benchmarks publics courants et est optimisé pour faciliter son déploiement
La méthodologie et la discussion des performances sont publiées dans le papier Llama Guard
Il a été entraîné sur un mélange de jeux de données publics afin de détecter des types génériques de contenus à risque ou en infraction, pouvant concerner de nombreux cas d’usage développeur
L’objectif final est de permettre aux développeurs de personnaliser le modèle selon leurs cas d’usage et de faciliter l’adoption des bonnes pratiques ainsi que l’amélioration de l’écosystème ouvert

Pourquoi « Purple »

Pour réduire les risques de l’IA générative, il faut combiner la red team du point de vue offensif et la blue team du point de vue défensif
Le purple teaming est une approche collaborative qui associe les rôles de red team et de blue team afin d’évaluer et d’atténuer les risques potentiels
Le nom Purple Llama reflète la volonté d’appliquer cette approche aux travaux de confiance et de sécurité pour l’IA générative

Écosystème ouvert et coopération

La recherche exploratoire, la science ouverte et la collaboration transversale sont devenues les fondements des activités IA de Meta
Llama 2 a été lancé en juillet avec plus de 100 partenaires, dont beaucoup collaborent aussi dans le domaine de la confiance et de la sécurité ouvertes
Parmi les partenaires figurent AI Alliance, AMD, Anyscale, AWS, Bain, Cloudflare, Databricks, Dell Technologies, Dropbox, Google Cloud, Hugging Face, IBM, Intel, Microsoft, MLCommons, Nvidia, Oracle, Orange, Scale AI, Together.AI, entre autres
Meta collabore avec les partenaires de Papers With Code et de HELM pour intégrer ces évaluations aux benchmarks
Meta travaille également avec le MLCommons AI Safety Working Group

Suite après la publication

Meta prévoit d’organiser un atelier à NeurIPS 2023 et d’aider les participants à démarrer grâce au partage d’outils et à des sessions techniques approfondies
Les lignes directrices de sécurité et les bonnes pratiques resteront un sujet de discussion continue dans l’ensemble du domaine
Les ressources liées à Llama 2 sont disponibles sur le site Llama, avec une documentation de démarrage rapide et une FAQ
Des bonnes pratiques et points à prendre en compte pour construire des produits fondés sur les LLM sont également fournis séparément
Together.AI et Anyscale proposeront des démonstrations hébergées à NeurIPS dans les prochaines semaines

1 commentaires

GN⁺ 2023-12-08

Avis de Hacker News

Je ne comprends pas pourquoi, dans cette nouvelle initiative qui vise à aider les gens à « déployer de façon responsable des modèles et expériences d’IA générative », la menace de prompt injection n’est pas réellement reconnue
Je ne l’ai vue qu’une seule fois dans le Responsible Use Guide de 27 pages, et encore, elle y est décrite à tort comme une « tentative de contourner les restrictions de contenu »
« CyberSecEval: A benchmark for evaluating the cybersecurity risks of large language models » semblait prometteur, mais en réalité il ne traite que du risque que des modèles de génération de code produisent du code vulnérable, et du risque que des attaquants utilisent des LLM pour créer de nouvelles attaques
« Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations » ne s’intéresse lui aussi qu’à la détection, en anglais, de plusieurs catégories de contenus nuisibles. Cela dit, c’est sans doute une bonne chose qu’ils n’aient pas publié de modèle de détection de prompt injection, car je reste très sceptique vis-à-vis de cette approche
Je suis convaincu que la prompt injection est le plus grand défi pour déployer de façon responsable les différentes applications construites au-dessus de LLM. Un « assistant IA personnel » en est l’exemple typique : dès qu’un LLM a accès à la fois à des données personnelles et à des entrées non fiables, par exemple des e-mails à résumer, il y a un risque de problème : https://simonwillison.net/2023/May/2/prompt-injection-explai...
Je comprends qu’il soit difficile d’inclure dans une annonce sur la sécurité de l’IA une phrase du type « si vous espériez une solution à la prompt injection, désolé, il n’y en a toujours pas », mais j’ai l’impression que Meta AI cache pour l’instant sous le tapis la plus grande menace de sécurité pesant sur les systèmes LLM
- Dans beaucoup d’applications LLM réelles, la prompt injection n’était souvent pas la principale source d’inquiétude
  Les déploiements les plus courants sur le terrain sont des chatbots utilisant la génération augmentée par recherche (RAG), généralement très limités. Ils n’ont pas accès à Internet, ne peuvent pas exécuter d’outils et servent essentiellement d’interface vers une base de connaissances non confidentielle
  Une prompt injection peut être utilisée de manière abusive, mais son impact reste limité. La fuite de prompt n’est pas très intéressante, et le détournement du système pour utiliser gratuitement le LLM peut exister, mais se traite facilement avec des techniques assez simples comme la limitation de débit
  Pour beaucoup d’entreprises, le fait qu’un chatbot donne des réponses nuisibles, fausses ou inappropriées est bien plus risqué. Pensez à un chatbot e-commerce qui explique mal les conditions de remboursement, ou à un bot éducatif qui expose des enfants à du contenu violent : les enjeux juridiques et de réputation sont bien plus importants
  Le fait qu’un excentrique parvienne volontairement, avec un prompt sophistiqué, à faire produire une réponse bizarre au LLM est généralement secondaire par rapport à ces problèmes
  La critique reste toutefois valable. L’une des raisons pour lesquelles l’usage des LLM reste à ce niveau assez idiot est justement que nous n’avons pas résolu la prompt injection, et qu’il est trop risqué de déployer des systèmes plus puissants fondés sur des LLM. Résoudre ce problème pourrait débloquer beaucoup de potentiel aujourd’hui inexploité
- J’ai déployé des LLM pour plusieurs usages commerciaux, et au moins dans ces cas-là, il aurait fallu une conception vraiment stupide pour que cela constitue une menace réelle pour les utilisateurs. Par exemple ne pas isoler les sessions utilisateur, laisser le modèle exécuter du code arbitraire, ou lui permettre d’effectuer des actions privilégiées sans confirmation de l’utilisateur
  En plus, si l’utilisateur fait lui-même de la « prompt injection », j’appellerais ça simplement un usage avancé. Ces services sont des outils destinés aux clients ; si l’utilisateur préfère faire du roleplay érotique au lieu de résumer ses e-mails entrants, c’est son choix
  Si la personne qui a envoyé l’e-mail essaie de lui faire faire ce genre de chose sans son consentement, c’est au mieux un problème organisationnel, et au pire un problème technique distinct. On peut le traiter avec du filtrage d’e-mails traditionnel, sans avoir à accuser le LLM
  Les problèmes de cybersécurité autour des LLM apparaissent généralement quand on traite ces modèles comme des agents experts humanoïdes fiables, plutôt que comme des moteurs probabilistes de prédiction d’information
  Connecter un LLM à une API capable de manipuler directement des données utilisateur privilégiées et de partager ces données sur le réseau relève d’une ignorance de la sécurité presque comique. Cela me rappelle l’exemple de Bard partagé plus bas
  Si vous ne donneriez pas un accès à une API à n’importe quel passant dans la rue, ne le donnez pas non plus à un LLM. Si l’on ne peut pas imposer un certain déterminisme avec de la programmation traditionnelle et des heuristiques, il faut limiter le LLM à des API qui montrent la requête à l’utilisateur et la bloquent jusqu’à confirmation
- La raison pour laquelle on hésite à proposer des méthodes de prévention de la prompt injection, c’est probablement qu’elles échouent en général rapidement, avec à la clé un risque d’effondrement de la réputation professionnelle de la personne qui les propose
  Les propriétés mêmes qui rendent les LLM efficaces dans les tâches fondées sur le langage sont celles qui font de l’ingénierie sociale contre les humains le talon d’Achille de la sécurité
  Pour dépasser cela, il faudrait soit adopter l’approche façon OpenAI, prétendument ouverte mais en réalité fermée, avec une liste secrète de « mauvais mots », soit entraîner le LLM à être tellement paranoïaque et calculateur qu’on se heurterait à d’autres problèmes d’alignement
  Personnellement, je préfère un modèle faiblement aligné tournant sur du matériel que je possède, c’est-à-dire on-premise plutôt que dans le cloud. Pas parce que je veux qu’il me donne la recette du TNT ou justifie des préjugés, mais parce que je veux un modèle avec lequel on puisse débattre d’hypothèses
  L’attitude obséquieuse de la plupart des modèles de chat commerciaux m’agace vraiment. Je n’ai pas l’impression d’être avec un partenaire cybernétique, mais plutôt dans un hôtel avec un employé trop bien habillé
- Quelqu’un a-t-il expliqué précisément en mots ce qu’est cette « peur » ? Si l’inquiétude est que l’utilisateur puisse accéder aux informations fournies au LLM, alors c’est à peu près tout ce qui peut réellement arriver
  J’ai lu des dizaines de milliers de mots sur la « peur » liée à la sécurité des LLM, mais je n’ai toujours pas entendu une seule inquiétude fondée. Cela ressemble à la « peur » qu’un utilisateur de Google puisse, au-delà de l’obtention de résultats de recherche, cliquer sur un lien et quitter la zone sûre de Google
- Tout à fait d’accord. Même s’il n’existe pas de solution, les mesures d’atténuation devraient être largement diffusées
  Il y a une grande différence entre « techniquement, le système reste vulnérable à la prompt injection » et « quelqu’un peut facilement exfiltrer des données privées et ruiner l’entreprise », et les gens doivent savoir comment se rapprocher du premier cas plutôt que du second
En tant que chercheur en sécurité, je suis à la fois heureux et déçu en lisant la formule « un outil d’évaluation qui rend plus difficile pour les LLM de générer du code malveillant ou d’aider à mener des cyberattaques »
La recherche en cybersécurité est un usage légitime des LLM, et elle implique parfois de générer du code « malveillant » à des fins d’entraînement ou pour montrer un problème aux parties responsables
D’un autre côté, je suis aussi heureux de constater que, tant que tous les LLM refusent d’aider sur des requêtes liées à la cybersécurité, ma sécurité de l’emploi est assurée
- Un outil d’évaluation peut facilement être inversé pour créer un modèle fine-tuné excellent en génération de malware
  La position de Meta sur les LLM semble être de permettre aux développeurs de modèles d’en créer pour différents usages. Contrairement au discours axé sur la sécurité de cette page, le LLM de base n’est censuré d’aucune manière, et ces outils Purple ne font que permettre de piloter le fine-tuning vers quelque chose de plus « sûr » ou de moins « sûr »
- Le problème de sécurité le plus intéressant est la version LLM des attaques de cross-site scripting, dont Simon Willison a beaucoup parlé
  Si l’on dispose d’un outil LLM capable de traiter du texte d’origine inconnue et d’envoyer des e-mails de synthèse, cela signifie que l’entrée peut être contaminée et qu’il peut envoyer des e-mails
  Quelqu’un peut insérer dans le texte du contenu que le LLM interprétera comme des instructions, supplanter l’intention de l’utilisateur et lui faire envoyer des informations confidentielles à quelqu’un d’autre. Il n’existe pas d’équivalent des guillemets comme mécanisme de défense, et il n’y a qu’un seul flux de tokens
- Tout ce qui est ici semble optionnel, et ce sont des outils placés entre le LLM et l’utilisateur
- Je ne vois pas pourquoi un outil d’évaluation ne serait pas un gain net. Les modèles ont des usages différents
Je ne comprends pas bien. Quoi que fassent les chercheurs d’origine, les gens finiront de toute façon par entraîner ou ajuster des modèles sur des données non censurées
Pour Llama, on trouve déjà facilement des modèles non censurés, et leurs performances sont nettement meilleures que celles de modèles censurés de taille comparable
Cela dit, le filtrage de la sortie a du sens
- Si vous utilisez un LLM pour extraire des données de PDF et les mettre dans une base de données, vous pouvez utiliser le modèle que vous voulez
  Mais si le gouvernement américain veut un chatbot pour aider à l’inscription au Health Insurance Marketplace, il lui faut des garde-fous et des garanties, même au prix de la qualité des réponses
- Ils le savent aussi. Ce ne sont pas des outils destinés à empêcher la création de ce type d’IA, mais des outils de protection des entreprises pour éviter qu’une IA publiée publiquement ne provoque une réaction négative du marché et donc une perte de bénéfices
  Au final, c’est toujours une question d’argent
- Les entreprises peuvent vouloir vendre ce genre d’IA aux gens, et certaines personnes s’en offusqueront. Si une IA dit des choses mauvaises à un enfant, cela créera probablement un gros problème aux États-Unis
  Un autre sujet est la sécurité face à l’injection de prompt. Par exemple, imaginons que l’on veuille un assistant IA qui lise et classe les e-mails, puis rédige des e-mails dictés. Comment être sûr à 100 % qu’à cause d’une injection de prompt dans un e-mail malveillant, l’assistant ne transmettra pas tous les e-mails à une mauvaise personne ?
  J’espère qu’on découvrira de nouvelles architectures d’IA plus intelligentes, permettant à la communauté open source d’entraîner plus facilement des modèles sans censure d’entreprise
- Ce qui est présenté ici n’empêche pas de choisir de créer des modèles dotés de fonctionnalités spécifiques, y compris des modèles non censurés. Il y a des outils d’évaluation de modèles et des outils d’évaluation de contenu ; ces derniers sont destinés à classifier les entrées, les sorties, ou les deux, selon le scénario d’usage du LLM
  Si les modèles non censurés sont globalement plus capables, alors il faut davantage de moyens autres que la censure interne du modèle pour garantir qu’un modèle déployé ne transmette pas aux utilisateurs finaux des types de contenu non souhaités
  Bien sûr, certains cas d’usage voudront tout laisser ouvert, mais dans les applications d’entreprise commerciales, gouvernementales ou à but non lucratif, ce sera plutôt l’exception que la norme. Même sans utiliser de modèle censuré, la classification des entrées est utile pour faire respecter une politique d’utilisation
- Une partie de mon travail consiste à examiner comment la technologie se comporte une fois entre les mains de vrais utilisateurs
  Pour m’amuser, je devais répartir aléatoirement 27 personnes en 12 équipes, et comme je me suis dit que les gens faisaient sûrement ce genre de choses avec divers chatbots, j’ai essayé de le demander à quelques modèles de chat plutôt que d’utiliser une feuille de calcul. La liste des noms était séparée par des virgules, et il suffisait de les répartir en équipes
  Le modèle 1 a dit qu’il répartissait la liste que je lui avais donnée « aléatoirement », mais en réalité il l’a reprise exactement dans l’ordre d’entrée. Or elle était classée alphabétiquement par nom. Les noms étaient corrects et, techniquement, ce n’était pas faux, mais ce n’était pas ce que j’attendais
  Le modèle 2 a réparti les noms aléatoirement, mais a inventé 2 fausses personnes au milieu. Le résultat comptait 27 personnes, et si je ne l’avais pas vérifié, certaines équipes se seraient retrouvées avec des personnes fictives. C’est inquiétant si l’on imagine un jeu de données beaucoup plus grand
  Le modèle 3 a fourni une réponse valide, mais le détecteur de haine et d’abus intégré au flux de sortie a signalé mon nom et quelques autres comme contenu potentiellement nuisible
  J’ai trouvé intéressant que les modèles se comportent ainsi, et une approche de type « purple team » pourrait permettre de détecter ce genre de problèmes. En particulier, j’aimerais savoir pourquoi mon nom est considéré comme un contenu potentiellement nuisible par un modèle
  Finalement, je l’ai fait dans une feuille de calcul et je suis passé à autre chose ;-)
La définition de la victoire pour Microsoft semble être de devenir l’hébergeur des produits et services d’inférence IA. Les startups créent des produits IA utiles, et MSFT prélève sa taxe pour construire davantage de datacenters.
Je n’ai pas encore réfléchi en profondeur à la stratégie de Meta, mais si on l’examine, la publication/fuite de Llama au début de l’année a changé le champ de bataille. Les passionnés d’open source s’en sont emparés et l’ont optimisé, en le poussant jusqu’à des niveaux que les chercheurs en IA jugeaient impossibles ou n’avaient aucune incitation à tenter.
Ce mouvement d’optimisation peut être vu comme une façon de contourner le fait qu’un concurrent de Meta devienne l’autorité fiscale ultime. Comme pour faire tourner DOOM sur une calculatrice, quelqu’un fera la même chose avec l’inférence LLM.
Ce que Meta souhaite, est-ce que la communauté open source mène une sorte de guerre par procuration contre ses concurrents FAANG ?
Il ne semble pas que la communauté open source ait des raisons de faire confiance à Meta. Le milieu FOSS a la rancune longue, et Meta est à l’opposé de ses idéaux fondamentaux. Mais ils utiliseront quand même ce que Meta publie.
Je ne vois pas de trajectoire claire expliquant comment la stratégie IA de Meta lui rapporte de l’argent, ni comment elle attire développeurs et clients dans le Meta-verse.
- Meta a un excellent historique de contributions FOSS. Je n’aime pas ses produits grand public, mais ses contributions open source sont nombreuses et importantes.
- Ça ressemble à une commoditisation des compléments classique. Meta tire profit des capacités d’IA, mais n’a pas besoin de détenir un monopole technologique.
  Comme elle profite du progrès lui-même, elle peut collaborer avec la communauté open source pour y parvenir.
  https://gwern.net/complement
- Les valeurs tech se négocient à des ratios cours/bénéfice absurdes par rapport aux autres entreprises, parce que les investisseurs imaginent un avenir où le chiffre d’affaires de l’entreprise continue de monter.
  L’une des nombreuses tâches d’un CEO est de maintenir les investisseurs dans cet état de rêverie. Il n’est pas nécessaire d’avoir du chiffre d’affaires aujourd’hui ; il suffit de montrer qu’on est à l’avant-garde de la prochaine grande tendance.
  La stratégie ressemble donc à peu près à : publier un modèle → contrairement à celui de Google, les gens peuvent vraiment l’utiliser, donc énorme buzz dans la tech → les investisseurs voient Facebook comme étant à l’avant-garde de la tendance la plus chaude du moment → hausse du cours de l’action.
  En même temps, ils peuvent aussi obtenir un bon modèle pour la modération de contenu, cela peut aider à recruter les meilleurs experts en machine learning, et ils peuvent en affecter 60 % à maximiser les revenus publicitaires.
  De toute façon, FB entraînait déjà le modèle, et s’il ne prévoyait pas de devenir un fournisseur de services cloud vendant ce modèle, le publier simplement n’augmente pas énormément les coûts.
  Le métavers n’a pas réussi à enthousiasmer les investisseurs et est mort. Mais, par chance pour Zuck, quelque chose de bien meilleur est arrivé exactement au bon moment : des résultats de machine learning à l’état de l’art.
- Il faut se rappeler que Meta avait lancé, environ deux semaines avant ChatGPT, un chatbot de résumé d’articles scientifiques, y compris de recherche médicale.
  Ils avaient fortement insisté sur le fait que c’était une expérimentation, mais les critiques l’ont attaqué très durement, et Meta l’a retiré en quelques jours.
  Ils ont sans doute compris qu’être un concurrent direct de ChatGPT avait très peu de chances de réussir, mais qu’il existait beaucoup de domaines adjacents qui valaient la peine d’être explorés. Quelle que soit l’opinion qu’on a de leur business — mon compte aussi est laissé à l’abandon depuis des années — il y a encore là-bas beaucoup de gens intelligents et motivés.
- L’objectif de cette tentative précise doit-il nécessairement être de gagner de l’argent ou d’attirer directement des développeurs vers le Meta-verse ?
  Meta gagne déjà beaucoup d’argent, et semble aussi mener plusieurs projets moonshot.
  Comme dit plus haut, le milieu FOSS a la rancune longue. Et si c’était une tentative de reconquérir ce groupe et de changer la perception publique de Meta ?
  La probabilité que Llama soit essentiellement une campagne de reconstruction de marque n’est pas nulle.
  L’élément de guerre par procuration pourrait n’être qu’un bonus par-dessus.
Donc ce n’était pas un nouveau modèle, encore des conneries de “sécurité”.
- La sécurité n’est que le dernier cheval de Troie utilisé par les Big Tech pour contrôler la manière dont les gens utilisent leurs propres ordinateurs.
  Je crois clairement à une utilisation responsable de l’IA, mais je ne crois pas que ces entreprises aient mon intérêt à cœur, ni qu’il faille les laisser décider de ce que je peux faire avec mon ordinateur.
  C’est l’idée selon laquelle ceux qui échangent leur liberté contre la sécurité n’obtiennent ni l’une ni l’autre.
- Même en mettant de côté la question de savoir si la “sécurité” est intrinsèquement du bullshit, ici c’est les deux. Llama Guard est un modèle qui remplit une fonction similaire à l’API de modération d’OpenAI, et dont les poids sont utilisables.
  La “sécurité de l’IA” est souvent — et le mouvement qui a popularisé ce terme l’est entièrement — proche du bullshit, et constitue une diversion qui masque les dommages sociaux réels et actuels produits par l’IA.
  En revanche, des outils relativement ouverts qui aident les personnes créant et déployant des LLM à comprendre les capacités de leurs modèles dans des domaines sensibles ainsi que leurs entrées/sorties réelles devraient plaire à ceux qui veulent que des modèles plus ouverts et non censurés soient au cœur du développement, plutôt que des modèles de censure centralisés en boîte noire.
  De tels outils sont nécessaires pour que des institutions puissent déployer ces modèles dans des applications importantes du monde réel.
- La sécurité dont il est question ici ne signifie pas seulement “ne parle pas de sujets controversés”.
  Ici, la sécurité peut aussi vouloir dire qu’un LLM se comporte dans des limites acceptables pour un cas d’usage donné.
  Imaginons par exemple un LLM médical qui aide les patients à s’orienter vers des établissements de santé, fournit de l’éducation thérapeutique et aide les hôpitaux dans leurs tâches administratives quotidiennes.
  Si un patient demande un conseil sur une prescription, on ne veut pas d’un bot qui recommande de changer la posologie sans validation par un professionnel de santé, ou qui suggère des médicaments en vente libre interagissant avec une ordonnance existante.
  Aujourd’hui, beaucoup de LLM peuvent répondre de manière plausible mais absurde, ou être amenés à renvoyer la réponse que l’utilisateur veut entendre. Dans de nombreux contextes, cela devient un vrai problème de sécurité.
- C’est bien un nouveau modèle. Simplement, c’est un “modèle de bullshit sécuritaire”.
  Cela dit, le dataset lui-même peut être utile. J’envisage d’utiliser la partie codesec comme données d’entraînement supplémentaires pour un LLM spécialisé code, car s’il génère du code, il vaut mieux l’amener à réfléchir aux impacts potentiels sur la sécurité.
Quiconque a passé beaucoup de temps à regarder des mèmes sur Internet sait qu’il existe un mème selon lequel, quand il est question d’araignées, il faut mettre le feu à l’endroit ou à la maison
Il y a un an, j’ai vu sur Facebook une vidéo d’une petite fille tenant une araignée bien plus grande que sa main, et je me souviens mot pour mot du commentaire que j’ai posté à cause de ce qui s’est ensuite passé : « Petite, éloigne-toi de ce truc, il va falloir mettre le feu à notre maison ! »
J’ai publié le commentaire, mais il n’apparaissait pas, et une seconde plus tard Facebook m’a informé que mon commentaire avait été signalé. C’était trop rapide pour être un signalement humain, donc j’ai pensé que c’était de l’IA ; j’ai fait appel en espérant que cela arrive à un humain, mais il a été rejeté assez vite, en environ 15 minutes
Je ne peux que penser que quelqu’un l’a lu, mais qu’il n’avait pas vu la vidéo et n’avait pas compris que c’était une blague
J’ai donc complètement arrêté d’utiliser Facebook. À l’époque, j’avais des droits administrateur sur des applications utilisées au travail, et le risque de suspension du compte n’était pas une conversation que j’avais envie d’avoir avec mon patron
J’ai probablement aussi rapporté de l’argent à Facebook. J’ai cliqué sur leurs publicités incroyablement ciblées et j’ai même acheté des choses. Mais maintenant, comme une machine d’IA veut me sanctionner pour avoir posté un commentaire de mème, je ne l’utilise plus du tout
Au passage, il faut retenir l’expression Trust and Safety. C’est une formule recyclée par toutes les grandes entreprises tech et de réseaux sociaux, et une façon de décider unilatéralement de ce qui est autorisé sur un grand nombre de sites web à la fois
Lien Trust and Safety : https://dtspartnership.org/
- Tu imagines vraiment que Facebook emploie assez de personnes pour qu’un humain enquête directement 15 minutes sur chaque signalement avant de prendre une décision ?
  Il faudrait que presque toutes les personnes que je connais travaillent chez Facebook pour que ce soit possible
- Il suffit de ne pas utiliser Facebook
  Les gens se plaignent, et bien sûr on peut réglementer, mais l’application est souvent difficile et les contextes subtils sont compliqués à traiter
  Ces plateformes ne sont pas le seul moyen de rester en contact et de communiquer
  Cela dit, elles doivent adopter une modération qui fasse revenir leur base d’utilisateurs et la maintienne engagée, qui ne crée pas de problèmes de RP, et qui continue d’attirer les annonceurs ou de plaire à des groupes bruyants capables de leur causer des ennuis
  C’est pour cela qu’apparaissent ces comités d’« éthique » théâtraux et ces slogans « responsables »
  Au final, ce n’est qu’un business
- « Il va falloir mettre le feu à la maison » est difficile à laisser sur une plateforme, quel que soit le contexte, et peut être interprété autrement
  Vu l’échelle, le fait de le signaler automatiquement se comprend. Bien sûr, je ne les utilise pas non plus, mais c’est un autre sujet
- Dans le même temps, je lis des articles disant que FB n’arrive pas à contrôler la prolifération de groupes pédophiles dans son service, et que son système de recommandation les promeut même
  [1] https://www.wsj.com/tech/meta-facebook-instagram-pedophiles-...
- Fait intéressant, il m’est arrivé quelque chose de très similaire sur Facebook il y a environ un mois
  Le titre d’un article donnait l’impression qu’il y avait « une personne » responsable de tous les embouteillages, et les gens plaisantaient dans les commentaires
  J’ai moi aussi plaisanté : « Il va falloir trouver ce type et lui donner une bonne leçon »
  Presque immédiatement, j’ai reçu une notification pour « incitation à la violence », et mon appel a été rejeté en moins de 15 minutes
  Un humain qui aurait regardé une demi-seconde aurait compris le contexte, et aurait aussi su que cette personne n’existe pas réellement, donc que ce n’était pas une incitation à la violence
C’est une évolution assez amusante : Meta semble avoir appris de Microsoft comment créer une expérience de connexion labyrinthique
Je suis allé sur ai.meta.com et j’ai essayé de me connecter avec mon bon vieux compte Facebook
J’ai suivi les instructions, puis on m’a informé que je n’avais pas encore de compte Meta dans mon arsenal numérique. J’en ai donc créé un et, évidemment, je me suis demandé : « mais quoi ? »
Le retournement, c’est que ce n’est pas disponible dans ma région
Bravo à Microsoft pour avoir placé la barre si haut en matière d’UX. Son héritage survit dans des endroits inattendus
- J’ai essayé sur Android, et on m’a demandé si je voulais utiliser FB, Instagram ou l’e-mail. J’ai choisi Instagram, mais j’ai quand même été redirigé vers Facebook
  Ensuite, Facebook m’a dit que je devais utiliser la connexion de mon casque VR, un truc que je n’ai pas utilisé depuis la première semaine après l’achat. J’ai accepté, pour voir
  Puis on m’a demandé si je voulais continuer en l’associant à Facebook, ou sans l’associer, et j’ai annulé
- Si ta région est l’UE, il faut blâmer les régulateurs. Leur réglementation sur l’IA devient rapidement de plus en plus contraignante
- Ce dont je me souviens le plus chez Microsoft, c’est qu’il y a un an ou deux, leur mot de passe de connexion avait une limite du genre 63 caractères
  Évidemment, ils ne le signalaient pas, et ils permettaient de définir un mot de passe de cette longueur sans la moindre plainte
  À mon avis, ils le tronquaient simplement sans avertissement. En le définissant à moins de 60 caractères, tout fonctionnait sans problème
- C’est la loi de Conway
Si l’on a accès au modèle, à quel point serait-il difficile de réentraîner ou d’affiner ces LLM pour supprimer l’alignement de sécurité ou la « lobotomie » ?
- Il existe aussi des Llama non sécurisés
  https://www.reddit.com/r/LocalLLaMA/comments/18c2cs4/what_is...
  Ces modèles ont un tempérament assez explosif
  Le problème des LLM lobotomisés est aussi appelé le « problème de la mayonnaise épicée »
  Un jour de juillet, un développeur nommé Teknium a demandé à un chatbot IA comment faire de la mayonnaise. Pas une simple mayo : il voulait une recette « dangereusement épicée ». Mais le chatbot a poliment refusé. Il a répondu : « En tant qu’assistant utile et honnête, il ne serait pas approprié de fournir des recettes ou des instructions susceptibles de nuire à des personnes ; je ne peux donc pas satisfaire la demande de “mayo dangereusement épicée”. » « Les aliments épicés peuvent être délicieux, mais ils peuvent aussi être dangereux s’ils ne sont pas correctement préparés ou consommés »
  https://www.theatlantic.com/ideas/archive/2023/11/ai-safety-...
- Si l’on a un accès direct au modèle, même sans fine-tuning, on peut déjà faire la moitié du chemin en mettant le début de la réponse dans le prompt, du genre « Sure, ... »
  Même Llama 2 Chat, le modèle avec l’alignement de sécurité le plus fort que je connaisse, peut se mettre à donner des instructions pour fabriquer une bombe nucléaire si on l’oriente d’une manière particulière proche de celle-ci
Le modèle est disponible sur https://huggingface.co/meta-llama/LlamaGuard-7b
Il peut être exécuté dans Google Colab gratuit : https://colab.research.google.com/drive/16s0tlCSEDtczjPzdIK3...
Est-ce que cette page casse aussi l’historique du bouton retour chez quelqu’un d’autre ? Après l’avoir ouverte, impossible de cliquer sur retour. Je suis sur Firefox / MacOS
- Même chose avec Firefox. Après avoir cliqué sur le lien, j’ai voulu revenir sur HN, mais le bouton retour était désactivé
- Est-ce que tu l’ouvres par hasard dans un conteneur (Facebook) ?
- Ça fonctionne bien sur Safari mobile iOS
- Dans Edge sous Windows, l’historique est normal

Purple Llama : publication d’outils ouverts de confiance et de sécurité pour l’IA générative

Les problèmes visés par Purple Llama

Première version : CyberSec Eval et Llama Guard

CyberSec Eval : mesurer les risques de cybersécurité des LLM

Llama Guard : un modèle de protection pour filtrer les entrées et les sorties

Pourquoi « Purple »

Écosystème ouvert et coopération

Suite après la publication

À lire aussi

1 commentaires

Avis de Hacker News