1 points par GN⁺ 2023-12-08 | 1 commentaires | Partager sur WhatsApp

Annonce du projet Purple Llama

  • Purple Llama est un projet qui fournit des outils et des évaluations ouverts de confiance et de sécurité pour aider les développeurs à déployer des modèles d’IA générative de manière responsable.
  • CyberSec Eval est un ensemble de benchmarks d’évaluation de la sécurité en cybersécurité pour les LLM, et Llama Guard est un classifieur de sécurité pour le filtrage des entrées/sorties, facile à déployer.
  • En collaboration avec AI Alliance, AMD, AWS, Google Cloud, Hugging Face, IBM, Intel, Lightning AI, Microsoft, MLCommons, NVIDIA, Scale AI et d’autres, ces outils seront mis à disposition de la communauté open source.

Une nouvelle vague d’innovation dans l’IA générative

  • L’IA générative est une technologie innovante qui permet l’IA conversationnelle, la génération d’images réalistes, le résumé de documents à grande échelle, etc.
  • Les modèles Llama ont été téléchargés plus de 100 millions de fois, et ces innovations sont portées par les modèles ouverts.
  • La collaboration autour de la sécurité est essentielle pour permettre aux développeurs de bâtir la confiance et de mener des recherches ainsi que des contributions responsables en IA.

Les premiers pas du projet Purple Llama

  • La cybersécurité et la sécurité des prompts pour les LLM sont actuellement des domaines clés de la sécurité de l’IA générative.
  • Les benchmarks d’évaluation en cybersécurité s’appuient sur des recommandations et standards du secteur comme CWE et MITRE ATT&CK, et ont été construits en collaboration avec des experts en sécurité.
  • Llama Guard fournit un modèle publiquement accessible pour aider les développeurs à se protéger contre les sorties dangereuses.

L’importance de l’équipe Purple

  • Il faut adopter à la fois une posture d’attaque (red team) et de défense (blue team) pour atténuer les défis de l’IA générative.
  • L’équipe Purple représente une approche collaborative qui englobe à la fois les responsabilités des red teams et des blue teams, et le même esprit s’applique à l’IA générative.

Les efforts en faveur d’un écosystème ouvert

  • Meta fait de la recherche exploratoire, de l’open science et de la collaboration transversale le socle de ses efforts en IA, et il existe une opportunité majeure de construire un écosystème ouvert.
  • Meta prévoit de faire avancer la confiance et la sécurité ouvertes en collaboration avec de nombreux partenaires comme AI Alliance, AMD, Anyscale, AWS et d’autres.

La suite

  • Un workshop sera organisé à NeurIPs 2023 pour partager ces outils et proposer une analyse technique approfondie.
  • Les lignes directrices de sécurité et les bonnes pratiques nécessitent un dialogue continu, et les retours de la communauté sont attendus.

L’avis de GN⁺

  • Le point le plus important de cet article est que Meta a annoncé le projet Purple Llama afin de soutenir une utilisation sûre et responsable des nouvelles technologies d’IA générative.
  • Ce projet vise à aider les développeurs à déployer l’IA générative en toute sécurité, notamment grâce à des outils d’évaluation en cybersécurité et à un modèle de filtrage des entrées/sorties.
  • Ces efforts devraient contribuer à accélérer les progrès des technologies d’IA, à renforcer la confiance au sein de la communauté des développeurs et à consolider l’écosystème open source.

1 commentaires

 
GN⁺ 2023-12-08
Avis Hacker News
  • Il est difficile de comprendre le manque de prise en compte de la menace des prompt injections dans cette nouvelle initiative de « déploiement responsable des modèles et expériences d’IA ».
    • Dans le guide d’utilisation responsable de 27 pages, une seule mention a été trouvée, qui décrit à tort la prompt injection comme une « tentative de contourner les restrictions de contenu ».
    • « CyberSecEval » semble être un benchmark destiné à évaluer les risques de cybersécurité des grands modèles de langage, mais il ne couvre que le risque que les modèles de génération de code produisent du code non sûr et celui que des attaquants utilisent des LLM pour créer de nouvelles attaques.
    • « Llama Guard » ne s’intéresse qu’à la détection de contenus nuisibles en anglais dans plusieurs catégories, et il est presque rassurant qu’il n’y ait pas eu de tentative de lancer un modèle de détection de prompt injection.
    • La prompt injection est le plus grand défi à surmonter pour déployer de manière responsable des applications fondées sur des LLM, comme les assistants IA personnels, car les choses peuvent mal tourner lorsque le LLM a accès à la fois à des données personnelles et à des entrées non fiables, comme des e-mails à résumer.
  • En tant que chercheur en sécurité, générer du code « malveillant » avec un LLM est un usage légitime, que ce soit pour s’entraîner ou pour montrer un problème aux parties responsables ; je suis donc à la fois satisfait et déçu par l’annonce selon laquelle le LLM n’aidera pas pour les requêtes liées à la cybersécurité.
  • Quoi que fassent les chercheurs à l’origine, des gens entraîneront ou ajusteront de toute façon des modèles sur des données non censurées ; des modèles non censurés sont déjà facilement disponibles pour Llama et surpassent les modèles censurés de taille comparable.
  • La définition de la victoire pour Microsoft consiste à devenir l’hébergeur des produits et services d’inférence IA : les startups construisent des produits IA utiles, MSFT prélève sa taxe sur eux et construit davantage de data centers.
    • Je n’ai pas encore beaucoup réfléchi à la stratégie de Meta, mais j’ai maintenant envie d’essayer.
    • Le lancement / la fuite de Llama plus tôt cette année a changé le champ de bataille, et les passionnés d’open source s’en sont emparés pour commencer des optimisations que les chercheurs en IA n’avaient pas tentées.
    • Cette poussée d’optimisation peut être vue comme un moyen de contourner le fait qu’un concurrent de Meta devienne au final l’autorité fiscale suprême.
    • Je me demande si Meta s’attend à ce que la communauté open source mène une sorte de guerre par procuration contre ses concurrents FAANG.
    • Il semble peu probable que la communauté open source fasse confiance à Meta, et les collectifs FOSS savent garder rancune ; Meta est perçu comme allant à l’encontre de leur idéologie fondamentale.
    • Je ne vois pas de trajectoire claire montrant comment la stratégie IA de Meta rapportera de l’argent à Meta ni comment elle poussera développeurs et clients vers le métavers.
  • Ce n’est pas un nouveau modèle, juste du baratin sur la « sécurité ».
  • Après avoir publié sur Facebook un commentaire plaisantant sur le fait de brûler sa maison à cause d’une araignée, le message a été rapidement signalé par l’IA, puis mon recours a été promptement rejeté par un humain, ce qui m’a fait cesser d’utiliser Facebook.
    • On conseille de se souvenir que toutes les grandes entreprises tech / réseaux sociaux recyclent le terme « confiance et sécurité ».
  • Incident amusant : Meta semble suivre la méthode de Microsoft pour créer des expériences de connexion compliquées.
    • J’ai essayé de me connecter à ai.meta.com, avant de découvrir qu’il fallait un compte Meta.
    • J’ai créé un compte, puis découvert qu’il n’était pas utilisable dans ma région.
  • Si l’on peut accéder au modèle, je me demande à quel point il serait difficile de le réentraîner ou de le fine-tuner pour enlever la « lobotomisation » ou la « sécurité » de ce LLM.
  • Le modèle est disponible sur Hugging Face et peut être exécuté gratuitement sur Google Colab.
  • J’ai utilisé ChatGPT deux fois, et les deux fois il m’a donné de mauvaises réponses à des questions de base sur des tâches d’administration Linux.