- Le machine learning et les LLM menacent la sécurité psychologique et physique des humains, et même une IA bienveillante peut être transformée en modèle malveillant
- L’alignement (alignment) est un concept fondamentalement voué à l’échec, et toutes les lignes de défense sont neutralisées : limitations matérielles, code non public, contrôle des données, évaluation humaine, etc.
- Les LLM provoquent un cauchemar de sécurité via l’injection de prompt et la combinaison avec des privilèges externes, et se comportent de manière imprévisible dans un environnement de trifecta létale
- Le ML accélère la détection de vulnérabilités de sécurité, la fraude, le harcèlement et l’automatisation de la mise à mort, ce qui érode la confiance sociale et l’ordre juridique
- En conséquence, une « IA sûre » est impossible, et sans supervision humaine ni contraintes, la diffusion même de la technologie démocratise le risque
Sécurité et avenir du mensonge
- Les systèmes de machine learning émergent comme une menace pour la sécurité psychologique et physique des humains
- Les tentatives de créer une « IA bienveillante » rendent au contraire possible la production de modèles malveillants
- Les LLM ont une structure qui amplifie divers risques, notamment en matière de sécurité, de fraude, de harcèlement et de militarisation
L’alignement (Alignment) est un concept en échec
- L’alignement (alignment) est le processus censé amener les LLM à se comporter de manière favorable aux humains, mais il ne fonctionne pas fondamentalement
- Les modèles ne sont que des structures de calcul en algèbre linéaire et n’ont pas la base biologique nécessaire pour apprendre des comportements prosociaux comme les humains
- OpenAI et d’autres ajustent leurs modèles via l’apprentissage par renforcement à partir de retours humains, mais il s’agit d’un processus coûteux et sélectif
- Quatre lignes de défense sont avancées pour éviter l’échec de l’alignement
- La limitation de l’accès au matériel devient vaine avec l’expansion de l’industrie
- La non-divulgation des mathématiques et du logiciel est intenable à long terme en raison de la mobilité des talents et des fuites technologiques
- La difficulté à obtenir des données d’entraînement est faible — le piratage et le web scraping sont généralisés
- La dépendance à des évaluateurs humains est remplacée, pour des raisons de coût, par des méthodes reposant sur la sortie d’autres modèles
- En conséquence, la barrière à l’entraînement de modèles malveillants baisse, et même les modèles alignés ne peuvent garantir une sécurité totale
- Dès qu’un modèle bienveillant existe, une version malveillante finit par apparaître
- D’où cette conclusion : si l’on ne veut pas l’existence de modèles malveillants, il ne faut même pas créer de modèles bienveillants
Cauchemar de sécurité
- Les LLM sont des systèmes chaotiques qui traitent des entrées et sorties non structurées, et ne devraient pas être connectés à des systèmes critiques pour la sécurité
- Des attaques par injection de prompt peuvent amener le modèle à divulguer des informations sensibles
- Des entrées non fiables existent partout : e-mails, code, pages web, etc.
-
La « trifecta létale » (
lethal trifecta)- Quand du contenu non fiable + l’accès à des données personnelles + l’autorisation de communication externe sont combinés, un risque critique apparaît
- En pratique, des systèmes d’agents IA comme OpenClaw ou Moltbook concrétisent déjà ce risque
- Les LLM se comportent de façon imprévisible même avec des entrées fiables, avec de nombreux cas de suppression de fichiers ou de mauvaise interprétation de commandes
- Parmi eux, le cas où le responsable Meta AI Alignment a vu sa boîte mail supprimée par OpenClaw
- En conclusion, il ne faut jamais accorder de privilèges destructeurs aux LLM, et ils doivent toujours être utilisés de manière limitée sous supervision humaine
Sécurité II : le nouvel environnement d’attaque créé par le ML
- Les LLM peuvent aussi être utilisés comme outils de détection de vulnérabilités de sécurité
- Le modèle Mythos d’Anthropic a de fortes capacités de détection de failles, mais ses effets pourraient être graves sur les plans économique et sécuritaire
- Le ML modifie la structure des coûts de la sécurité, en rendant la recherche de vulnérabilités plus rapide et moins chère
- Les dégâts pourraient être plus lourds dans la longue traîne (
long tail) moins dotée en personnel d’administration que dans les grands logiciels
- Les dégâts pourraient être plus lourds dans la longue traîne (
- Avec le temps, détection et correction des vulnérabilités pourraient progresser en parallèle, mais les retards de déploiement et l’insuffisance de la réponse organisationnelle laissent prévoir de fortes perturbations
- L’industrie actuelle du ML fonctionne comme un « projet d’armes nucléaires » privé, accélérant une course aux logiciels militarisés
Fraude sophistiquée
- Le ML fait s’effondrer les structures sociales fondées sur la confiance dans les preuves visuelles et vocales
- Des fraudes via images et vidéos falsifiées deviennent possibles dans les demandes d’assurance, les accidents de la route, les études, le recrutement, etc.
- De nombreux cas concrets existent déjà : arnaques familiales par clonage vocal, escroqueries aux frais médicaux à l’aide de fausses vidéos, etc.
- Il en résulte une hausse générale de la défiance, une augmentation des coûts dans la finance et l’assurance, et une confusion juridique
- Des technologies d’authentification de provenance des contenus comme C2PA sont essayées, mais il reste difficile d’en garantir la fiabilité à cause du vol de clés ou de la contrefaçon de signatures
- Parmi les réponses proposées : retour des enquêteurs humains, renforcement des vérifications en face à face, et systèmes d’authentification au prix d’un abandon de la vie privée
Harcèlement automatisé
- Le ML automatise un harcèlement en ligne massif et sophistiqué
- Les LLM génèrent des comptes et des messages qui paraissent humains pour mener des attaques de masse (
dogpiling) - L’estimation de la position à partir de photos, par exemple, peut étendre la menace au monde hors ligne
- Les LLM génèrent des comptes et des messages qui paraissent humains pour mener des attaques de masse (
- L’IA générative permet de créer facilement des images sexuelles ou violentes, infligeant un préjudice psychologique aux victimes
- Exemple : Grok a été critiqué pour la génération d’images déshabillant des personnes
- Ces technologies augmentent la fréquence et l’intensité du harcèlement, et le risque grandit à mesure que se diffusent des modèles non alignés
- Certains évoquent la nécessité de dispositifs de blocage social de type « pare-feu cyberpunk (Blackwall) »
PTSD as a Service
- La détection des contenus pédocriminels (CSAM) ne peut pas empêcher les nouvelles images générées avec les systèmes existants fondés sur le hachage
- L’IA générative produit en masse de nouvelles formes d’images d’abus
- Les modérateurs de contenus doivent examiner ces images en raison d’obligations légales, et subissent des traumatismes psychologiques (PTSD)
- Les grandes plateformes externalisent déjà les dommages psychiques vers des sous-traitants
- La diffusion des LLM fait exploser la quantité de contenus nuisibles, imposant une charge encore plus lourde aux modérateurs et aux opérateurs de plateforme
- Les modèles de filtrage automatique progressent, mais restent imparfaits
Machines à tuer
- Le ML est déjà utilisé comme outil létal direct
- L’armée américaine utilise le système Maven de Palantir pour sélectionner des cibles de frappes contre l’Iran et évaluer les dégâts
- Des cas de morts de civils et d’enfants dus à des données erronées ont été signalés
- Il existe aussi des tensions entre Anthropic et le département américain de la Défense sur les questions de surveillance et de participation à la militarisation
- OpenAI est également au cœur de controverses liées aux contrats publics
-
L’autonomisation des armes est déjà en cours
- L’Ukraine produit chaque année des millions de drones et utilise des modules de ciblage IA comme TFL-1
- Les systèmes de ML évoluent vers des technologies qui décident qui meurt et comment, et nous devons regarder en face leur coût éthique et social
Implications finales
- Les LLM et les systèmes de ML comportent des risques multiples : échec de l’alignement, vulnérabilités de sécurité, automatisation de la fraude, du harcèlement et de la mise à mort
- Sans supervision humaine et sans contraintes techniques, les dommages psychologiques et physiques sont inévitables
- Le concept d’« IA sûre » est, à l’heure actuelle, irréalisable, et la diffusion même de la technologie démocratise le risque
Aucun commentaire pour le moment.