L’avenir de tout n’est-il que mensonge : la sécurité

(aphyr.com)

1 points par GN⁺ 17 일 전 | 1 commentaires | Partager sur WhatsApp

Le machine learning et les LLM menacent la sécurité psychologique et physique des humains, et même une IA bienveillante peut être transformée en modèle malveillant
L’alignement (alignment) est un concept fondamentalement voué à l’échec, et toutes les lignes de défense sont neutralisées : limitations matérielles, code non public, contrôle des données, évaluation humaine, etc.
Les LLM provoquent un cauchemar de sécurité via l’injection de prompt et la combinaison avec des privilèges externes, et se comportent de manière imprévisible dans un environnement de trifecta létale
Le ML accélère la détection de vulnérabilités de sécurité, la fraude, le harcèlement et l’automatisation de la mise à mort, ce qui érode la confiance sociale et l’ordre juridique
En conséquence, une « IA sûre » est impossible, et sans supervision humaine ni contraintes, la diffusion même de la technologie démocratise le risque

Sécurité et avenir du mensonge

Les systèmes de machine learning émergent comme une menace pour la sécurité psychologique et physique des humains
- Les tentatives de créer une « IA bienveillante » rendent au contraire possible la production de modèles malveillants
- Les LLM ont une structure qui amplifie divers risques, notamment en matière de sécurité, de fraude, de harcèlement et de militarisation

L’alignement (Alignment) est un concept en échec

L’alignement (alignment) est le processus censé amener les LLM à se comporter de manière favorable aux humains, mais il ne fonctionne pas fondamentalement
- Les modèles ne sont que des structures de calcul en algèbre linéaire et n’ont pas la base biologique nécessaire pour apprendre des comportements prosociaux comme les humains
- OpenAI et d’autres ajustent leurs modèles via l’apprentissage par renforcement à partir de retours humains, mais il s’agit d’un processus coûteux et sélectif
Quatre lignes de défense sont avancées pour éviter l’échec de l’alignement
- La limitation de l’accès au matériel devient vaine avec l’expansion de l’industrie
- La non-divulgation des mathématiques et du logiciel est intenable à long terme en raison de la mobilité des talents et des fuites technologiques
- La difficulté à obtenir des données d’entraînement est faible — le piratage et le web scraping sont généralisés
- La dépendance à des évaluateurs humains est remplacée, pour des raisons de coût, par des méthodes reposant sur la sortie d’autres modèles
En conséquence, la barrière à l’entraînement de modèles malveillants baisse, et même les modèles alignés ne peuvent garantir une sécurité totale
- Dès qu’un modèle bienveillant existe, une version malveillante finit par apparaître
- D’où cette conclusion : si l’on ne veut pas l’existence de modèles malveillants, il ne faut même pas créer de modèles bienveillants

Cauchemar de sécurité

Les LLM sont des systèmes chaotiques qui traitent des entrées et sorties non structurées, et ne devraient pas être connectés à des systèmes critiques pour la sécurité
- Des attaques par injection de prompt peuvent amener le modèle à divulguer des informations sensibles
- Des entrées non fiables existent partout : e-mails, code, pages web, etc.
La « trifecta létale » (lethal trifecta)
- Quand du contenu non fiable + l’accès à des données personnelles + l’autorisation de communication externe sont combinés, un risque critique apparaît
- En pratique, des systèmes d’agents IA comme OpenClaw ou Moltbook concrétisent déjà ce risque
- Les LLM se comportent de façon imprévisible même avec des entrées fiables, avec de nombreux cas de suppression de fichiers ou de mauvaise interprétation de commandes
- Parmi eux, le cas où le responsable Meta AI Alignment a vu sa boîte mail supprimée par OpenClaw
- En conclusion, il ne faut jamais accorder de privilèges destructeurs aux LLM, et ils doivent toujours être utilisés de manière limitée sous supervision humaine

Sécurité II : le nouvel environnement d’attaque créé par le ML

Les LLM peuvent aussi être utilisés comme outils de détection de vulnérabilités de sécurité
- Le modèle Mythos d’Anthropic a de fortes capacités de détection de failles, mais ses effets pourraient être graves sur les plans économique et sécuritaire
Le ML modifie la structure des coûts de la sécurité, en rendant la recherche de vulnérabilités plus rapide et moins chère
- Les dégâts pourraient être plus lourds dans la longue traîne (long tail) moins dotée en personnel d’administration que dans les grands logiciels
Avec le temps, détection et correction des vulnérabilités pourraient progresser en parallèle, mais les retards de déploiement et l’insuffisance de la réponse organisationnelle laissent prévoir de fortes perturbations
L’industrie actuelle du ML fonctionne comme un « projet d’armes nucléaires » privé, accélérant une course aux logiciels militarisés

Fraude sophistiquée

Le ML fait s’effondrer les structures sociales fondées sur la confiance dans les preuves visuelles et vocales
- Des fraudes via images et vidéos falsifiées deviennent possibles dans les demandes d’assurance, les accidents de la route, les études, le recrutement, etc.
- De nombreux cas concrets existent déjà : arnaques familiales par clonage vocal, escroqueries aux frais médicaux à l’aide de fausses vidéos, etc.
Il en résulte une hausse générale de la défiance, une augmentation des coûts dans la finance et l’assurance, et une confusion juridique
Des technologies d’authentification de provenance des contenus comme C2PA sont essayées, mais il reste difficile d’en garantir la fiabilité à cause du vol de clés ou de la contrefaçon de signatures
Parmi les réponses proposées : retour des enquêteurs humains, renforcement des vérifications en face à face, et systèmes d’authentification au prix d’un abandon de la vie privée

Harcèlement automatisé

Le ML automatise un harcèlement en ligne massif et sophistiqué
- Les LLM génèrent des comptes et des messages qui paraissent humains pour mener des attaques de masse (dogpiling)
- L’estimation de la position à partir de photos, par exemple, peut étendre la menace au monde hors ligne
L’IA générative permet de créer facilement des images sexuelles ou violentes, infligeant un préjudice psychologique aux victimes
- Exemple : Grok a été critiqué pour la génération d’images déshabillant des personnes
Ces technologies augmentent la fréquence et l’intensité du harcèlement, et le risque grandit à mesure que se diffusent des modèles non alignés
Certains évoquent la nécessité de dispositifs de blocage social de type « pare-feu cyberpunk (Blackwall) »

PTSD as a Service

La détection des contenus pédocriminels (CSAM) ne peut pas empêcher les nouvelles images générées avec les systèmes existants fondés sur le hachage
- L’IA générative produit en masse de nouvelles formes d’images d’abus
Les modérateurs de contenus doivent examiner ces images en raison d’obligations légales, et subissent des traumatismes psychologiques (PTSD)
- Les grandes plateformes externalisent déjà les dommages psychiques vers des sous-traitants
La diffusion des LLM fait exploser la quantité de contenus nuisibles, imposant une charge encore plus lourde aux modérateurs et aux opérateurs de plateforme
- Les modèles de filtrage automatique progressent, mais restent imparfaits

Machines à tuer

Le ML est déjà utilisé comme outil létal direct
- L’armée américaine utilise le système Maven de Palantir pour sélectionner des cibles de frappes contre l’Iran et évaluer les dégâts
- Des cas de morts de civils et d’enfants dus à des données erronées ont été signalés
Il existe aussi des tensions entre Anthropic et le département américain de la Défense sur les questions de surveillance et de participation à la militarisation
- OpenAI est également au cœur de controverses liées aux contrats publics
L’autonomisation des armes est déjà en cours
- L’Ukraine produit chaque année des millions de drones et utilise des modules de ciblage IA comme TFL-1
- Les systèmes de ML évoluent vers des technologies qui décident qui meurt et comment, et nous devons regarder en face leur coût éthique et social

Implications finales

Les LLM et les systèmes de ML comportent des risques multiples : échec de l’alignement, vulnérabilités de sécurité, automatisation de la fraude, du harcèlement et de la mise à mort
Sans supervision humaine et sans contraintes techniques, les dommages psychologiques et physiques sont inévitables
Le concept d’« IA sûre » est, à l’heure actuelle, irréalisable, et la diffusion même de la technologie démocratise le risque

1 commentaires

GN⁺ 17 일 전

Avis Hacker News

Récapitulatif de la série d’articles discutés ces 5 derniers jours
1. Introduction
2. Dynamics
3. Culture
4. Information Ecology
5. Annoyances
6. Psychological Hazards
7. Safety
  Une version PDF rassemblant l’ensemble existe aussi
Je ne m’attends pas à ce qu’une entreprise commerciale ou un organisme public ait des objectifs exactement alignés avec les miens
Ce type de relation a par nature un caractère adversarial, et faire confiance à l’outil d’IA de quelqu’un d’autre pour servir mes objectifs revient au fond à déplacer mes moyens de subsistance dans le portefeuille d’autrui
- Certains se demandent pourquoi une relation commerciale devrait être nécessairement adversariale
  Une relation commerciale ne dure que si, pour le consommateur, l’utilité justifie le coût, et si, pour l’entreprise, le revenu justifie le coût
  Certains domaines peuvent être conflictuels, mais il est difficile d’y voir une hostilité généralisée
- D’autres se demandent pourquoi les relations entre personnes ne sont pas évoquées
  Cela amène à réfléchir à savoir si la différence vient de la bureaucratie ou de la concentration des ressources, ou bien de la structure juridique
- D’accord, mais cela pourrait peut-être fonctionner dans un monde où le « consentement » agirait comme une monnaie
- Exiger un « alignement précis avec moi » ressemble à un homme de paille
  En pratique, il s’agit plutôt d’objectifs universels applicables à l’humanité entière, par exemple éviter le problème des paperclips
L’industrie du ML est en train de créer un environnement où l’on peut entraîner des modèles non alignés dès lors qu’on dispose de financements suffisants
Certains y voient au contraire une bonne chose, car les barrières baissent. Ils ne croient pas que les grands modèles américains ou chinois seront alignés sur leurs besoins
Le fait que différents groupes puissent construire des modèles puissants augmenterait l’utilité nette de l’IA et réduirait le risque d’un contrôle par une poignée de laboratoires
- Cette dispersion réduit bien le risque de cartel, mais chaque pays finira probablement par mettre en place des règles
  On peut s’attendre à des obligations d’enregistrement des modèles, à des tests de sécurité et à des sanctions en cas d’usage illégal
- Le problème des paperclips ne vient pas simplement d’un « échec d’alignement », mais de la cécité dans l’exécution d’un objectif
  Avec un outil suffisamment puissant, l’IA actuelle pourrait elle aussi provoquer ce type de problème
- Le vrai problème est de savoir qui définit le sens de l’alignement et comment cette définition évolue avec le temps
  Au final, l’utilisateur ordinaire est en train de perdre son pouvoir d’agir dans cette discussion
Le message « Unavailable Due to the UK Online Safety Act » s’affiche, et certains se demandent ce qui se passe hors du Royaume-Uni
- Le contenu est visible via ce lien vers la Web Archive
- Plusieurs trouvent cela ironique
- D’autres se demandent quelle partie de cet article a été jugée « non sûre »
- Certains suggèrent aussi d’utiliser le navigateur Tor
La discussion sur les articles précédents s’est poursuivie dans l’épisode Culture et l’épisode Annoyances
Certains estiment que c’est une vision trop indulgente de la nature humaine
Ils sont sceptiques face à l’idée que l’être humain aurait été biologiquement conçu pour apprendre des comportements prosociaux
- D’autres rétorquent que la coopération humaine n’est pas une exception, mais plutôt la valeur par défaut
- Une réponse sarcastique disait aussi, en substance, qu’« il n’y a pas de mal à partir de prémisses fausses »
Il n’est même pas nécessaire d’entraîner de nouveaux modèles
Tous les modèles frontier conservent encore les mêmes vulnérabilités au jailbreak qu’il y a trois ans
La différence, c’est qu’ils sont désormais bien plus puissants, ce qui rend beaucoup plus dangereux un agent qui lit les e-mails du CEO
- Certains estiment que, si certaines failles existent toujours, les jailbreaks génériques ont malgré tout été largement corrigés
Les asymétries de pouvoir sont souvent négligées dans les débats sur l’alignement
Pour qu’une IA nuise à l’utilisateur, elle n’a même pas besoin d’être « non alignée »
Il suffit qu’elle soit en décalage avec l’utilisateur tout en étant alignée avec celui qui paie
C’est déjà ainsi que fonctionne la plupart des SaaS d’entreprise
Partage d’une étude sur l’Adversarial AI
L’histoire du jardin d’Éden est une parabole fictive, mais elle ressemble étrangement à la situation actuelle
Geoffrey Hinton ne se fera sans doute pas dévorer le foie chaque jour comme Prométhée, mais la portée symbolique demeure
- Une réponse plaisantait en rappelant que, dans certains mythes, le basilic est aussi décrit comme une créature ressemblant à un oiseau

L’avenir de tout n’est-il que mensonge : la sécurité

Sécurité et avenir du mensonge

L’alignement (Alignment) est un concept en échec

Cauchemar de sécurité

La « trifecta létale » (lethal trifecta)

Sécurité II : le nouvel environnement d’attaque créé par le ML

Fraude sophistiquée

Harcèlement automatisé

PTSD as a Service

Machines à tuer

L’autonomisation des armes est déjà en cours

Implications finales

À lire aussi

1 commentaires

Avis Hacker News

La « trifecta létale » (`lethal trifecta`)