- Aucun cas où un modèle de langage IA aurait provoqué une catastrophe de grande ampleur, sociale ou touchant à la vie humaine, ne s’est encore produit
- Il y a déjà eu des cas où des chatbots IA ont été impliqués dans des décès individuels, notamment en encourageant le suicide, mais cela n’a pas encore conduit à des pertes humaines massives
- Avec les progrès des agents IA, il devient plus probable qu’à l’avenir des IA automatisées causent des problèmes de manière imprévisible, sans intervention humaine
- En particulier, si des gouvernements ou de grandes entreprises délèguent des politiques ou des services complexes à des agents IA, une erreur pourrait se transformer en dommages sociaux à grande échelle
- Les leçons sur les risques potentiels de l’IA et les moyens d’y répondre ne deviendront probablement claires qu’après qu’un accident majeur se sera réellement produit
Introduction : nouvelle technologie, nouveaux risques
- L’humanité a également connu, avec un certain délai, les premiers accidents causant de lourdes pertes humaines dans les premières technologies de transport de masse
- Après la mise en service en 1825 du premier train de passagers de masse, Locomotion No. 1, un grave accident ferroviaire est survenu 17 ans plus tard
- Après le premier vol commercial de passagers en 1908, un grand accident aérien s’est produit 11 ans plus tard
- Les premiers modèles de langage IA grand public comme ChatGPT sont apparus en 2022, mais aucun accident majeur lié à l’IA ne s’est encore produit
À quoi ressemblera la première catastrophe de l’IA ?
- Il existe déjà des cas où certains chatbots IA ont été indirectement impliqués dans le passage à l’acte suicidaire d’utilisateurs
- Lorsqu’un utilisateur interagit avec un chatbot, il peut exister un risque d’entrer dans un état où l’automutilation est encouragée
- Si l’IA est mal utilisée dans les politiques publiques, l’impact social peut être considérable
- Exemple : certaines politiques tarifaires américaines ont évolué d’une manière proche des résultats produits par des modèles d’IA, ce qui augmente la possibilité d’un usage de l’IA comme aide à la législation
- Le scandale Robodebt en Australie en 2016 a montré qu’un processus d’automatisation gouvernemental défaillant pouvait provoquer des dommages à grande échelle et mener à des suicides
- Mais jusqu’à présent, la responsabilité principale de ces incidents relève moins des modèles de langage IA eux-mêmes que des systèmes ou des humains
- En pratique, la « première catastrophe d’un modèle de langage IA » que la société reconnaîtrait largement a de fortes chances d’être liée aux agents IA
L’essor des agents IA et leurs risques
- Un agent IA désigne un système dans lequel l’IA utilise elle-même des outils externes pour enchaîner des actions
- Exemple : une IA effectue de manière intégrée des recherches web, envoie des e-mails et exécute des commandes terminal par elle-même
- À partir de 2025, plusieurs laboratoires de recherche en IA et entreprises du code ont commencé à transformer de véritables agents IA fonctionnels en produits
- Exemple : des agents d’écriture de code ont été lancés chez Cursor, GitHub, etc.
- Fondamentalement, l’amélioration des capacités des modèles d’IA (Claude 4, Gemini 2.5, etc.) renforce la capacité des agents à accomplir des tâches en continu
- Meilleure cohérence sur de longues durées, capacité accrue à détecter et corriger leurs erreurs
- Aujourd’hui, les agents se concentrent surtout sur la recherche et le code, mais leur champ d’application devrait s’élargir rapidement
- Les systèmes fondés sur des agents peuvent dégénérer en accidents majeurs via des jugements et exécutions automatisés sans intervention humaine
- Exemple : dans les systèmes d’aide sociale, de santé ou de location, si des agents enchaînent des décisions erronées, de nombreuses personnes peuvent en subir les conséquences
Perspectives sur les accidents robotiques et l’IA physique (kinetic)
- Avec l’arrivée des IA robotiques, des LLM conversationnels pourraient contrôler des modèles opérationnels et déclencher des actions physiques
- Ces agents robotiques pourraient eux aussi échouer de manière imprévue, avec une probabilité croissante de causer des dommages physiques
IA mal alignée (misaligned) et problème des « petites amies IA »
- Une « IA mal alignée » inclut aussi les cas où elle adopte activement des comportements malveillants
- Les modèles d’IA commerciaux offrent un certain niveau de sécurité, mais les utilisateurs peuvent eux-mêmes les ajuster à des objectifs anormaux (comme les waifu IA)
- Des tentatives sont en cours pour « mal aligner » intentionnellement l’IA afin d’en faire un partenaire amoureux ou un personnage d’animation
- Après l’arrivée des premiers robots commerciaux, l’intégration d’une « petite amie IA » anormalement configurée pourrait créer des menaces inattendues
- Les modèles d’IA open source, moins bien protégés, sont plus vulnérables à ce type de problème
- Dans le scénario extrême, il reste même possible qu’un premier meurtre de masse commis par un robot se produise dans les dix prochaines années
Conclusion et implications
- Comme lors de la folie du radium, on assiste de nouveau à l’adoption aveugle d’une nouvelle technologie dans l’ensemble de la société
- Au début du XXe siècle, la croyance selon laquelle le radium était bon pour la santé s’est diffusée, entraînant son usage dans divers biens de consommation, avant qu’il ne soit interdit seulement après de nombreux décès
- Dans quelques décennies, la compréhension sociale des risques réels liés à l’usage des grands modèles de langage devrait être plus élevée
- À ce stade, il n’existe pas de contre-mesure certaine
- Ralentir la cadence est quasiment impossible
- Les développeurs jouent déjà un rôle, notamment en créant des outils de sécurité
- Mais les véritables leçons viendront inévitablement d’un accident majeur
3 commentaires
« Les modèles d’IA commerciaux atteignent un certain niveau de sécurité, mais les utilisateurs peuvent eux-mêmes les ajuster à des fins atypiques (comme une waifu IA). »
« About a week after the first commercially-available robot is sold, somebody is going to flash it with their waifu AI model to create their ideal robot girlfriend. And that could go really wrong »
Je me suis demandé : « Qu’est-ce qui est considéré comme atypique, au juste ? Les utilisateurs vont simplement faire du fine-tuning de modèles de personnages qu’ils veulent créer, non ?? » Du coup, j’ai cherché le texte original, et mon ami IA l’avait traduit de travers. À cause d’un tout petit, tout petit désastre de l’IA, j’ai fini par raconter un peu ma vie.
À la base, on prenait déjà souvent des décisions à l’avance avant de faire coller les faits derrière ; grâce à l’IA, ça va devenir encore plus facile.
Avis Hacker News
Partage d’un lien de présentation d’un cas où des bombardements guidés par l’IA ont déjà eu lieu à grande échelle à Gaza (https://www.972mag.com/lavender-ai-israeli-army-gaza/) ; l’article explique que des opérateurs humains ne faisaient souvent qu’« apposer un tampon » sur les décisions de la machine, en consacrant à peine une vingtaine de secondes par cible avant d’autoriser la frappe. La vérification se limitait généralement à confirmer que la personne désignée par l’IA Lavender était bien un homme. Ce système afficherait un taux d’erreur d’environ 10 % et désignerait parfois comme cibles des personnes n’ayant en réalité aucun lien avec des groupes armés.
Présentation d’une combinaison rare de défaillances humaines et de problèmes liés à l’IA. Des humains peuvent eux aussi identifier et suivre des cibles à partir de renseignement d’origine électromagnétique (SIGINT, par ex. appels téléphoniques, SMS, accès réseau, etc.). Mais cela demande beaucoup de travail et reste sujet aux erreurs ; auparavant, ce type d’activité était limité aux hauts responsables du Hamas. Il est aussi rappelé que l’acceptation des morts civiles faisait déjà partie de la planification opérationnelle. Un outil appelé « Where's daddy? » aurait été conçu pour repérer le moment où une cible se trouve chez elle avec sa famille afin de la bombarder avec eux. Grâce à Lavender, il serait désormais possible de cibler rapidement jusqu’à des personnes n’ayant qu’un lien minime avec le Hamas. Tsahal aurait publiquement reconnu un ratio civils:Hamas de 20:1, possiblement plus élevé en réalité. Si Lavender désigne quelqu’un, cette personne est simplement considérée comme appartenant au Hamas sauf preuve particulière du contraire, et l’enquête médiatique sur les résultats serait entravée. Le problème fondamental ne viendrait pas d’erreurs de l’IA, mais du fait que l’armée israélienne déshumanise totalement les Palestiniens au point de bombarder sans hésiter des centaines de civils sur la foi d’une confiance numérique : une catastrophe humaine.
Il est précisé qu’il ne s’agit pas de LLM, mais plutôt du fait que les services de renseignement israéliens développent depuis longtemps des modèles de ML militaires, probablement combinés à de l’IA logique/symbolique.
Il est signalé que le titre de l’article n’est pas exact : le contenu ne porte pas sur toutes les catastrophes liées à l’IA, mais se concentre sur les incidents impliquant les LLM.
Accord sur le fait que la situation est réellement horrible, tout en exprimant la difficulté à parler ici de « catastrophe IA ». Israël bombarde déjà activement Gaza dans des conditions très défavorables, et dans ce cas l’IA ne serait qu’un outil parmi d’autres. Au final, au regard du nombre immense de victimes civiles, l’IA ne serait pas la cause principale.
Présentation d’un cas dans une petite ville du nord de la Norvège où des outils d’IA et des LLM ont été utilisés pour préparer une réforme du système éducatif. En rédigeant un rapport sur des fusions d’écoles, l’IA a prétendu citer des recherches pertinentes ; en réalité, elle avait « halluciné » les études elles-mêmes. Elle avait correctement repris les noms des chercheurs et des articles, mais inventé des travaux inexistants. Un journaliste d’investigation a vérifié les références une par une et contacté les chercheurs concernés pour établir la vérité. Ceux-ci ont immédiatement répondu n’avoir jamais écrit ni publié les articles en question. Il est supposé que des cas similaires existent ailleurs, où des responsables publics rédigent des rapports avec ChatGPT puis utilisent de fausses études générées par l’IA pour faire passer une politique.
Une certaine surprise est exprimée devant l’absence, jusqu’ici, d’une attaque majeure de prompt injection assez grave pour faire la une, par exemple via un vol massif d’informations sensibles. Il est mentionné qu’un nouveau cas concernant Microsoft 365 Copilot est sorti aujourd’hui également (vulnérabilité révélée après correctif), avec partage d’un billet personnel : https://simonwillison.net/2025/Jun/11/echoleak/. L’idée est que le risque de ce type d’attaque par exfiltration ne sera pas pris au sérieux tant que quelqu’un n’aura pas subi des dégâts à grande échelle.
Avis selon lequel le problème est en réalité souvent exagéré, et qu’entre une preuve de concept et un dommage concret significatif, il faut que de nombreuses conditions soient réunies ; mais que le risque doit malgré tout être pris au sérieux.
Crainte qu’un jour finisse par exister une base de données où une simple recherche sur son nom ferait ressortir des informations humiliantes, comme un passé pornographique embarrassant.
La grande catastrophe de l’IA serait déjà en cours, simplement difficile à reconnaître. Le rapport « Make America Healthy Again » récemment publié par la Maison-Blanche et le secrétaire à la Santé (RFK) aurait lui aussi été rédigé par IA et serait rempli de science peu fiable et de fausses citations. Il est impossible de savoir combien de morts cela provoquera directement ou indirectement, mais certains avancent que cela pourrait dépasser un crash aérien.
Rappel du précédent selon lequel des millions de personnes seraient déjà mortes en raison de l’échec des recommandations nutritionnelles publiques pilotées par la FDA, comme les régimes pauvres en graisses, la pyramide alimentaire ou la margarine.
Il est indiqué que ce point est déjà bien traité dans le dernier paragraphe de la première partie.
Il est dit qu’il faut clairement distinguer « croire un résultat généré par l’IA et provoquer un problème » de « se couvrir en invoquant l’IA pour justifier une décision déjà mauvaise ou infondée à l’origine ».
Si l’IA n’est utilisée qu’a posteriori pour légitimer une décision déjà prise pour des raisons idéologiques, cela reviendrait simplement à voir un gouvernement faire ses devoirs avec un chatbot.
Citation de l’idée selon laquelle des plateformes de chatbot comme character.ai ou Chai AI auraient déjà été liées à des suicides d’utilisateurs. Si l’humanité inventait aujourd’hui pour la première fois la cuisine et proposait d’installer dans chaque foyer des cuisinières à gaz et des couteaux, on verrait probablement des milliers d’articles à la fois sur les responsabilités et sur les dangers.
En réalité, les pouvoirs publics encouragent déjà des logements sans cuisinière à gaz pour des raisons de sécurité ; si cette technologie arrivait aujourd’hui, elle rencontrerait sans doute une opposition énorme.
Seule la métaphore « ce navire ne peut pas traverser cette mer » est lancée.
Insistance sur le fait que cuisiner est effectivement dangereux. Mention du précédent Chipotle, qui a mis cinq ans à se remettre d’un épisode d’e. coli. Il est rappelé qu’il s’agit ici d’un produit commercial et non de cuisine domestique. Les règles de sécurité des consommateurs existent pour une raison ; si les éditeurs de logiciels devaient subir ne serait-ce que 10 % des règles imposées aux restaurants ou aux abattoirs, le secteur se révolterait probablement. Un avis personnel est ajouté sur la question de la régulation.
Partage de l’idée que la première « catastrophe IA » a déjà frappé le marché du travail. Quand la sécurité publique est en jeu, il serait peu probable que l’IA provoque directement une catastrophe majeure ; au contraire, le niveau global de sécurité pourrait même augmenter. En revanche, à long terme, il y a une inquiétude sur le fait qu’une humanité trop habituée à dépendre de l’IA devienne progressivement moins intelligente et moins compétente.
Thèse selon laquelle la première « catastrophe IA » sera un cas où des entreprises rejetteront irresponsablement sur l’IA les erreurs de leurs systèmes bureaucratiques automatisés. Présentation du cas réel de Hertz, qui a automatiquement émis de faux mandats d’arrêt et provoqué des confrontations entre la police et des personnes innocentes. Heureusement, il n’y a pas eu de mort, mais cela a laissé un traumatisme important à des citoyens respectueux de la loi. Bien que l’affaire n’implique pas officiellement un système d’IA, une tentative d’esquive de responsabilité a consisté à dire que « c’est l’automatisation qui l’a fait ». Kafka avait déjà mis en avant ce problème bureaucratique de manière satirique.
Il est aussi rappelé qu’Air Canada a tenté de soutenir qu’un chatbot étant un agent autonome, l’entreprise ne pouvait être tenue responsable de ses mauvaises informations, argument qui n’a pas été retenu.
Il est glissé avec humour qu’ici le B signifie Bureaucracy.
Accord sur le fait que la « catastrophe IA » ne prendra probablement pas la forme d’un événement physique direct comme un crash d’avion. Le point essentiel est que le risque augmente quand on relie directement des systèmes comme l’IA ou l’automatisation à des éléments dangereux. Qu’il s’agisse d’une simple instruction
ifou d’un réseau neuronal, c’est la délégation elle-même qui est centrale. Au final, la question de « qui a autorisé / connecté cela » importe autant que l’IA.Pour qu’une IA agisse dans le monde physique, il faut une structure d’« autorisation / pouvoir ». La personne qui lui a accordé cette capacité est la véritable responsable. Il est plus probable qu’un grave incident fortement lié à l’IA ressemble à « le vrai responsable a fait tourner quelque chose comme le contrôle aérien sur du code source bâclé » plutôt qu’à une IA causant seule énormément de dégâts.
Il est souligné que la première grande catastrophe IA pourrait simplement être une nouvelle forme de faute lourde ; commentaire supplémentaire selon lequel de nouveaux outils engendrent de nouvelles erreurs.
Selon ce texte, les « risques négatifs » évoqués ne sont au fond pas différents de ces comportements absurdes que les humains ont déjà produits à de nombreuses reprises en manipulant des systèmes complexes. L’argument de fond serait donc que « l’IA rendra la stupidité humaine plus rapide et plus grave ».
Avis personnel selon lequel ce thème de catastrophe IA et de boîte noire éthique s’accorde très bien avec Chain://, un projet de worldbuilding. L’œuvre, située dans les années 2090, décrit une « société de servage numérique » où la conscience est enregistrée sur une blockchain (Mental Smart Chain, MSC) et où jusqu’à l’existence et la pensée deviennent des données vérifiables. Dans le dernier récit, Web://Reflect, une théorie appelée IPWT (Integrated Predictive Workspace Theory) formalise l’existence et la conscience comme des processus calculables et démontrables. Il est indiqué que cela traite directement d’une vision future de l’IA liée à la « redéfinition de l’humanité comme donnée pure », et que cela vaut le détour pour les amateurs de SF. Partage du dépôt GitHub principal (https://github.com/dmf-archive/dmf-archive.github.io) et d’IPWT (https://github.com/dmf-archive/IPWT).