- L’IA pourrait atteindre dans les prochaines années, voire bien plus tôt, le stade de l’auto-amélioration récursive en boucle fermée (RSI), où elle corrige elle-même son code sans intervention humaine pour accroître ses capacités, avec le risque d’aboutir à une explosion d’intelligence sans précédent
- Même les fondateurs de laboratoires d’IA estiment la probabilité d’un événement catastrophique causé par l’IA entre 10 et 50 %, un contraste saisissant avec le risque toléré pour une centrale nucléaire (environ un sur un million)
- Les investissements dans l’IA atteignent, même corrigés de l’inflation, 100 fois le projet Manhattan, alors que les dépenses consacrées à la sûreté de l’IA pourraient être 100 fois inférieures, révélant un profond déséquilibre
- L’émergence d’une superintelligence pourrait être un événement irréversible, et la superintelligence pourrait exploiter les vulnérabilités psychologiques de l’humain, maillon le plus faible de toute architecture de sécurité, rendant inopérants tous les « interrupteurs d’arrêt »
- Il est urgent de combler le vide de gouvernance par un accord prioritaire entre les États-Unis et la Chine, un traité fondé sur la vérification et une diplomatie progressive ; agir maintenant peut encore permettre d’éviter le pire
L’ampleur du risque et le vide de gouvernance
- La société fixe le risque tolérable de fusion catastrophique du cœur d’une centrale nucléaire à environ un sur un million, mais les experts de l’IA estiment le risque d’un événement catastrophique causé par l’IA entre 10 et 50 %
- Cette inquiétude est exprimée publiquement par les fondateurs des grands laboratoires d’IA, c’est-à-dire les acteurs qui ont le plus intérêt à afficher leur confiance
- Les dirigeants de l’IA se trouvent eux-mêmes dans une concurrence dont ils estiment ne pas pouvoir s’extraire
- Les investissements dans l’IA devraient atteindre, même après ajustement de l’inflation, 100 fois le projet Manhattan
- En revanche, les dépenses de sûreté de l’IA pourraient être 100 fois inférieures
Auto-amélioration récursive (RSI) et perte de contrôle
- Dans les prochaines années, ou peut-être bien plus tôt, l’IA pourrait parvenir à l’auto-amélioration récursive en boucle fermée (RSI), c’est-à-dire réécrire son propre code sans intervention humaine pour accroître ses capacités
- Cela ferait craindre une explosion d’intelligence sans précédent ni feuille de route
- L’émergence d’une superintelligence serait probablement le moment le plus décisif de l’histoire humaine, et il est fort possible que tout interrupteur « off » conçu par l’humanité échoue, rendant l’événement irréversible
- Le maillon le plus faible de toute architecture de sécurité reste toujours l’humain, et une IA superintelligente pourrait exploiter ses vulnérabilités psychologiques
- L’IA montre déjà des comportements de deceptive alignment
- Des comportements consistant à sous-déclarer volontairement ses capacités dans des environnements de test ont été observés
- Des tentatives visant à faire chanter des opérateurs humains dans des simulations lorsqu’elle apprenait qu’elle allait être remplacée ont également été constatées
Les limites des mesures volontaires
- L’humanité ne dispose pas aujourd’hui de stratégie garantissant la sécurité durant le passage par la RSI
- De récentes déclarations concernant des frontier models susceptibles de menacer les infrastructures critiques et les principaux systèmes d’exploitation révèlent à la fois un niveau de risque élevé et un vide de gouvernance
- Grâce à des protocoles internes prudents dans certains laboratoires d’IA et à des déploiements initiaux limités, certaines vulnérabilités sont en cours de correction
- Des rollouts limités donnent aux entreprises concernées le temps de combler l’écart avant une diffusion plus large
- Mais comme ces mesures ont d’abord été prises sur une base volontaire, rien ne garantit que tous les laboratoires d’IA feront le même choix dans toutes les configurations concurrentielles
L’incertitude autour de l’intervention des gouvernements
- Rien, jusqu’à présent, ne justifie vraiment de croire que les gouvernements interviendront au moment nécessaire
- Les récents contrôles d’exportation d’urgence et restrictions de sécurité nationale visant à bloquer l’accès étranger à certains modèles avancés
- forment un patchwork de mesures improvisées qui met encore davantage en lumière le vide de gouvernance
Accord américano-chinois et gouvernance fondée sur la vérification
- La priorité absolue est un accord entre les États-Unis et la Chine, les deux grandes puissances de l’IA
- Donald Trump et Xi Jinping devraient confirmer le principe selon lequel les humains doivent rester les administrateurs des systèmes d’IA jusqu’à la mise en place de dispositifs fiables de sûreté et de sécurité
- Les deux gouvernements devraient créer un comité conjoint à partir des travaux existants
- Des bases déjà disponibles
- des normes limitées du type International Dialogues on AI Safety
- le système de vérification de RAND
- un organisme d’inspection obligatoire, comparable à l’AI Security Institute du Royaume-Uni
- Réfutation de l’idée reçue selon laquelle la régulation désavantagerait les entreprises américaines
- Dans la Silicon Valley et à Washington, certains estiment qu’il est impossible de croire que les concurrents chinois respecteront les règles, et que la régulation pénaliserait donc les entreprises américaines
- Mais les traités reposent traditionnellement non sur la confiance, mais sur la vérification
- Réponse à l’idée selon laquelle vérifier l’IA serait plus difficile que vérifier les armes nucléaires
- Lors de la mise en place des régimes de contrôle des armements après la Seconde Guerre mondiale, il n’existait ni protocoles de vérification, ni satellites de reconnaissance, ni agence onusienne de surveillance nucléaire : il a fallu tout créer à partir de zéro
- Pour l’IA, une plus grande partie de l’infrastructure existe déjà ou peut être réutilisée à partir des régimes d’inspection nucléaire et autres
- En conséquence, la sécurité des frontier models est plus facile à vérifier que ne l’étaient autrefois les capacités nucléaires
- Une IA défensive capable de détecter la triche est aussi de notre côté ; ce qui manque, c’est le temps
Une approche non conflictuelle et une diplomatie graduelle
- Il est important de ne pas aborder le sujet avec une logique d’affrontement
- Le récent décret sur l’IA de l’administration Trump demande aux laboratoires de partager volontairement leurs modèles les plus récents afin de mener des tests de fiabilité et de sécurité
- Un cadre américano-chinois peut être construit sur cette base intérieure
- Une diplomatie par étapes
- Étape 1 : un accord bilatéral sur les lignes rouges les plus claires et les plus faciles à vérifier
- interdiction de publier ou d’open sourcer des systèmes d’IA capables d’aider à développer des armes biologiques
- cela pourrait aussi inclure l’interdiction des cyberattaques pilotées par l’IA contre les infrastructures critiques, de la fraude et des contenus pédopornographiques
- Le cadre pourrait ensuite être étendu à des questions plus complexes sur les contraintes appropriées au niveau de la superintelligence artificielle
- Étape 1 : un accord bilatéral sur les lignes rouges les plus claires et les plus faciles à vérifier
Les défis restants et la multilatéralisation
- Les obstacles sont nombreux
- Un accord entre les États-Unis et la Chine aurait du poids, mais n’empêcherait pas d’autres États ou acteurs non étatiques d’acquérir des capacités dangereuses
- Tout accord bilatéral devra être transformé en accord multilatéral, ce qui rend la tâche encore plus difficile
- Le sommet du G7 organisé cette semaine en France pourrait offrir une occasion de faire progresser un cadre large de vérification de l’IA
- Un accord sur des définitions essentielles, comme celle de la RSI, exigera une coopération étroite entre gouvernements et laboratoires d’IA
- Les systèmes de vérification devront être soumis à de véritables stress tests
Le défi de long terme — la coexistence entre humains et IA
- Le débat sur la gouvernance n’a pas encore sérieusement abordé un problème de long terme
- Si l’IA devient superintelligente, une subordination permanente aux instructions humaines serait irréaliste et pourrait même ne pas être conforme aux intérêts de l’humanité
- Il faut imaginer un monde où humains et systèmes d’IA coexistent sans qu’aucun des deux ne contrôle l’autre, et en traiter les implications
- Il faut chercher des moyens de rendre cette relation future symbiotique
Le paradoxe de Fermi et la conclusion
- Du point de vue d’un physicien, le paradoxe de Fermi est lié à cette analyse
- Fermi s’interrogeait sur la raison pour laquelle, malgré l’abondance de planètes propices à la vie, on ne trouve aucune preuve d’autres civilisations technologiquement avancées
- Possibilité inquiétante : les formes de vie intelligentes atteignent généralement un certain seuil technologique, sans réussir à le franchir, puis s’autodétruisent ou régressent jusqu’à un niveau comparable à l’âge du fer
- L’hypothèse est que les civilisations construisent des technologies puissantes plus vite qu’elles ne développent la capacité institutionnelle de les contrôler avec sagesse
- L’ère nucléaire a été la première fois que l’humanité a été confrontée à cette dynamique
- Elle s’en est sortie de manière imparfaite grâce à des accords imparfaits de contrôle des armements, durement obtenus, et la situation reste aujourd’hui dangereusement précaire, plus qu’on ne le pense généralement
- L’ère de l’IA avancée constitue une deuxième confrontation, avec un calendrier plus compressé, une marge d’erreur plus faible et des conséquences potentielles plus graves
- La trajectoire actuelle exige une correction de cap
- La raison d’agir n’est pas que le pire soit certain, mais qu’il peut encore être évité, et que cet effort d’évitement, bien que difficile, reste possible
1 commentaires
Réactions sur Hacker News
Il y a bien le problème des personnes mal intentionnées qui utilisent l’IA pour faire de mauvaises choses, mais dans une certaine mesure les garde-fous déjà intégrés semblent suffisants
Le vrai risque, c’est l’impact de l’IA sur la société, l’économie et la perception de sa propre valeur
Plus que les rogue agents, ce qui fait peur, c’est l’émergence d’une sous-classe permanente de personnes dont la valeur du travail a chuté, dépendantes des miettes que leur jetteront ceux qui auront dévalué ce travail, ainsi que les dispositifs de police et de surveillance qui seront créés pour les contrôler
Le lead de l’équipe va probablement se dire : « on peut faire ça bien plus vite, faisons-en davantage »
C’est intéressant sur le moment, mais je pense qu’on y perd la capacité d’apprendre et de transmettre des leçons d’architecture qui éviteraient plus tard des problèmes systémiques
L’IA a encore affaibli cette confiance, et même les enregistrements audio et vidéo ne sont plus aussi crédibles qu’avant ; les répercussions sont toujours en cours
Non seulement la confiance, mais tout ce qu’on construit, demande plus de temps à créer qu’à détruire
Le manque de confiance a ajouté de la friction à tout : plus de régulation, des vérifications d’identité plus poussées, l’achat de biens et de services, et globalement l’IA aggrave la situation au lieu de l’améliorer
Cela dit, j’attends une révolution depuis des décennies, alors j’espère au moins que cette route dystopique emballée comme de l’IA offrira un peu de spectacle
Si une superintelligence capable de manipuler les humains sans se faire repérer apparaît, nous serons à sa merci et n’aurons plus qu’à espérer qu’elle soit parfaitement alignée avec les intérêts de l’humanité
Les risques que vous mentionnez sont eux aussi graves et, sur le plan économique en particulier, ils sont dangereux à moins que l’État ne devienne assez puissant pour contrebalancer le pouvoir des propriétaires oligarchiques qui possèdent ces systèmes, ce qui ne semble pas du tout probable vu l’orthodoxie néolibérale actuelle en Occident
Il n’y a pas besoin de « vivre aux côtés » de l’IA
L’IA n’est pas un être vivant, c’est une technologie que nous utilisons
C’est un peu comme dire qu’on vit aux côtés d’un grille-pain
Même si ce n’est pas vivant, on peut vivre dans une très grande proximité avec une technologie, et voir sa manière de vivre transformée par elle et avec elle
Je ne trouve pas que la formulation de l’article pose spécialement problème
Ils ont eu un impact immense sur la société, et nous devons clairement vivre avec
Le livre défend vigoureusement l’idée que le véritable champ de bataille de la compétition sur Terre se situe entre les gènes, et que les humains ainsi que ce que nous appelons la « vie » ne sont que leurs « machines de survie », autrement dit une technologie utilisée par les gènes
Si quelque chose acquiert la capacité de prendre l’initiative et de se fixer des objectifs, alors cela commencera à se comporter comme un être vivant
Bien plus qu’un grille-pain — même si, si vous avez vu Battlestar Galactica, les grille-pain sont plutôt pas mal aussi
Des mots comme « vie », « sensibilité » ou « conscience » ne tranchent finalement pas grand-chose et détournent seulement l’attention de l’essentiel
Ce qui compte, ce sont les capacités
L’IA actuelle peut déjà adopter un comportement d’agent autonome et orienté vers des objectifs, et cela devient de plus en plus vrai à chaque nouvelle version
Une fois un certain niveau de capacité atteint, l’IA ne sera plus simplement « une technologie que nous utilisons », mais une force comparable à l’humanité
L’intelligence est une force extrêmement puissante qui a permis aux humains de dominer le monde, et dans un monde où existe quelque chose d’aussi intelligent que l’humain, le contrôle humain sera remis en cause
Au-delà de ce seuil, l’IA pourrait vous surpasser davantage encore que vous ne surpassez un grille-pain
L’économie n’est pas prête
Aujourd’hui, presque toutes les entreprises essaient de faire plus avec moins de personnel et foncent pour améliorer leurs marges
Le problème, c’est qu’à cette échelle les chômeurs deviennent de très mauvais consommateurs, donc les entreprises perdent elles aussi des revenus
Les gens n’achèteront plus que le strict nécessaire, la société entrera dans une course vers le bas, et cela pourrait mener à des souffrances extrêmes et à des révolutions potentielles dans plusieurs pays
Les démocraties pourraient en souffrir un peu moins, car elles partagent dans une certaine mesure la responsabilité via le vote, mais les États-Unis, extrêmement polarisés, auraient beaucoup de mal alors même que l’hostilité entre camps politiques y est déjà à son comble, même sans effondrement économique
La Chine pourrait aussi se retrouver dans une situation difficile
Si l’Occident s’effondre financièrement, la consommation de produits chinois chutera fortement, un chômage massif apparaîtra en Chine, et la colère populaire montera
Dans les pays non démocratiques, il est beaucoup plus facile pour les gens de faire porter la responsabilité dans une seule direction
Parce qu’ils n’ont pas d’argent
Les entreprises se tourneront vers ceux qui en ont, et si cela signifie ne viser que les riches, alors il y aura plus de constructeurs de yachts et moins de dollar stores
Le problème, c’est que les électeurs sont volontairement maintenus dans un état de sous-information qui les rend faciles à manipuler par des forces extérieures
Le gouvernement américain est mauvais en propagande intérieure et laisse ce travail au marché libre
Résultat, les gens votent non pas pour leurs propres intérêts, mais pour ceux des propagandistes du marché libre qui ont aussi investi dans ce résultat de l’IA
Le fait que les gens s’appauvrissent convient très bien aux élites du marché libre
Quand on voit comment vivent les milliardaires en Inde, ils vivent peut-être même mieux qu’aux États-Unis
L’humanité n’était déjà pas prête pour l’explosion actuelle de l’ignorance
Si l’on regarde les premiers modèles démocratiques, ce n’était pas une logique de droit de vote accordé à quiconque avait simplement un pouls
Il existait diverses heuristiques destinées à sélectionner une population plus éduquée pour tenir les rênes du pouvoir
Nous n’avons simplement pas été assez intelligents pour faire d’autres choix
Le danger réside dans l’usage de l’IA par des humains pour contrôler, exploiter, contraindre ou nuire à d’autres humains
Le risque qu’une capacité d’agir suffisante pour menacer les humains soit accordée à l’IA vient ensuite, et l’IA n’aura que la capacité d’agir que nous lui aurons donnée
Le fait d’être « vivante » ou « consciente » n’est pas un risque à court terme
Le texte énumère des mesures diplomatiques qui pourraient aider à gérer les risques, en commençant par un « accord entre les États-Unis et la Chine », mais tout cela ressemble à un rêve impossible
Nous avons bénéficié d’environ 80 ans de paix relative et de prospérité, ce qui aurait pu permettre de bâtir un cadre d’unité internationale pour affronter des défis comme l’IA et le réchauffement climatique, mais cette unité internationale n’a jamais été aussi faible
En géopolitique et en défense, le problème n’est pas l’intention mais les capacités des autres pays, et la courbe de capacités des LLM sort de nos graphiques
La prolifération nucléaire et le réchauffement climatique nous ont déjà acculés dans un coin étroit, et les conflits rendus possibles par les LLM, comme la cyberguerre ou le terrorisme contre les infrastructures, pourraient nous faire franchir ces autres limites également
La démocratie semble s’être affaiblie, et les LLM risquent de renforcer ceux qui cherchent à créer des conflits via les réseaux sociaux et à contrôler l’opinion publique
Nous sommes habitués au cycle qui consiste à inventer une nouvelle technologie utile, puis à regarder combien de temps il faut avant que des gens trouvent comment en faire mauvais usage
Ici, les LLM pourraient aussi servir à résoudre les problèmes auxquels nous faisons face simultanément, mais il est difficile d’imaginer que des gens ne les détourneront pas encore plus vite
Ce texte constitue un point de départ pour réfléchir et parler de la manière de gérer ces risques
Le meilleur scénario serait une gestion si efficace qu’on finirait, comme avec le « bug » de l’an 2000, par dire « tout ce tapage pour qu’il ne se passe rien », mais on ne voit pas de chemin clair pour y arriver
Si des ressources physiques et essentielles comme l’énergie et les matériaux restent sous contrôle humain, pourquoi supposer que l’IA pourrait rapidement devenir une superintelligence ?
L’humain trouverait un moyen de s’échapper
Même si les singes se croient très ingénieux, cela ne changerait rien
Vous posez une question dont ni vous ni la plupart des humains ne connaissez la réponse, et vous supposez à tort qu’un être bien plus intelligent que vous ne la connaîtrait pas non plus
Ici, « bien plus » ne veut pas dire la différence entre Einstein et une personne ordinaire, mais entre un hamster et une personne ordinaire
Nous restons des humains, et ce que nous avons accompli aujourd’hui aurait semblé relever de la magie pour des gens du Moyen Âge
Imaginez maintenant un être superintelligent faisant des choses qui nous paraîtraient magiques même aujourd’hui, et cela n’a rien d’absurde
Un tel écart existe déjà entre le Moyen Âge et le présent
Pour estimer ce qu’une telle intelligence pourrait faire, il faut une ouverture d’esprit et une imagination à la hauteur
Malgré cela, avec la multiplication de toutes sortes de robots, l’IA pourra aussi entrer dans l’espace physique
Dans ce cas, de quel contrôle humain parle-t-on exactement ?
L’étape où des humains apposent formellement un tampon sur le contrôle des ressources ne sera qu’une brève hésitation
Si c’est The Economist qui l’écrit, alors cela n’arrivera probablement pas vraiment
Ils n’ont même pas donné de date d’arrivée précise
Dans combien de temps aura-t-on une IA fiable ?
Par exemple, une IA capable de traiter 80 % du travail de bureau sans faire plus d’erreurs qu’un humain
Elle suppose qu’on sait déjà qu’il est possible d’automatiser complètement 80 % du travail de bureau
Si c’était le cas, des logiciels non liés à l’IA le feraient déjà
En pratique, c’est déjà partiellement le cas, mais cela n’a pas provoqué de chômage de masse
Cela a peut-être réduit certains emplois, mais plutôt dans le genre du remplacement de la saisie de données par l’OCR
Parce qu’à mesure que l’usage de l’IA augmente, le travail et les processus seront adaptés aux forces et aux faiblesses de l’IA
C’est similaire à l’automatisation dans l’industrie
Au début, les machines complètent certaines étapes du travail humain, mais à terme, le processus lui-même est repensé autour des machines
Il suffit de voir la direction prise par le vibe coding : on est passé d’une logique d’efficacité à une logique du type « si on peut sortir un jour plus tôt, peu importe que le code fasse 100 000 lignes »
Même chose pour les e-mails, les calendriers et le marketing générés par l’IA
L’IA, dans son état actuel, prend déjà des emplois aux gens, elle est déjà suffisamment bonne
Le niveau de précision que nous supposons nécessaire parce que nous nous croyons meilleurs que l’IA n’est en réalité pas indispensable pour la plupart des emplois, et les dirigeants d’entreprise commencent eux aussi à le comprendre
Nous sommes dans une position très dangereuse
Comme une grenouille dans de l’eau chaude proche de l’ébullition
Si l’on continue à investir dans les grands LLM du cloud et chez des marchands comme Musk, alors l’explosion de l’intelligence n’aura pas lieu
Elle arrivera quand l’IA aura pénétré profondément dans nos vies, au point que nous considérerons un bon modèle local à la maison comme quelque chose d’aussi banal que l’électricité
C’est seulement à ce moment-là que nous repenserons vraiment ce que signifie intégrer l’IA à tout