Informatique > Apprentissage automatique
- Titre: Adversarial Policies Beat Superhuman Go AIs
- Auteurs: Tony T. Wang, Adam Gleave, Tom Tseng, Kellin Pelrine, Nora Belrose, Joseph Miller, Michael D. Dennis, Yawen Duan, Viktor Pogrebniak, Sergey Levine, Stuart Russell
- Date de soumission: 1er novembre 2022 (v1), dernière révision le 13 juillet 2023 (v4)
Résumé
- L’équipe a entraîné des politiques adversariales contre KataGo, un système d’IA de Go de pointe, et a atteint un taux de victoire supérieur à 97 % contre KataGo en mode surhumain.
- Les politiques adversariales ne gagnent pas en jouant mieux au Go, mais en poussant KataGo à commettre de graves erreurs.
- Cette attaque se transfère en zéro-shot à d’autres IA de Go surhumaines, et elle est suffisamment interprétable pour qu’un expert humain puisse battre de manière constante l’IA surhumaine sans aide algorithmique.
- Les vulnérabilités fondamentales restent présentes même dans les agents KataGo entraînés de manière adversariale pour contrer cette attaque.
- Les résultats montrent que même des systèmes d’IA surhumains peuvent présenter des modes de défaillance surprenants.
Informations supplémentaires
- Statut du papier: Accepté à ICML 2023
- Sujet: Apprentissage automatique (cs.LG); Intelligence artificielle (cs.AI); Cryptographie et sécurité (cs.CR); Machine learning (stat.ML)
- Classification ACM: I.2.6
- Référence: arXiv:2211.00241 [cs.LG] (ou cette version arXiv:2211.00241v4 [cs.LG])
- Historique des versions:
- [v1] 1er novembre 2022
- [v2] 9 janvier 2023
- [v3] 18 février 2023
- [v4] 13 juillet 2023
Méthodologie
- Possibilité d’accéder au papier au format PDF et autres formats
- Outils de citation et références connexes disponibles
Informations sur arXiv
- arXiv est une plateforme de partage d’articles de recherche qui met à disposition des travaux sur une large variété de sujets.
1 commentaires
Commentaires Hacker News
Un utilisateur a noté que le papier paraissait étonnant au premier abord, mais qu’il était difficile à comprendre. Il sait un peu de go et d’IA Go, et il sait beaucoup d’échecs et d’IA d’échecs, mais il a trouvé les explications insuffisantes et remplies de jargon technique, ce qui lui a semblé difficile à comprendre.
Il a cité des cas limites aux échecs et comparé les évaluations de Stockfish et de Lc0.
Il a signalé qu’au go, un amateur peut devenir un adversaire difficile à cause de coups imprévisibles.
Il rappelle qu’après Deep Blue, les joueurs d’échecs ont amélioré leurs stratégies contre les ordinateurs.
Il mentionne qu’aux échecs aussi, plus de calcul conduit parfois à la victoire.
Il mentionne un papier modifié entre 2022 et 2023 et dit qu’il pourrait l’avoir déjà vu.
Il indique qu’il y a de l’espoir pour les humains aussi.
Il mentionne que le papier sera utilisé pour intégrer une défense face aux stratégies adversariales dans les IA de go.
Il dit que la conclusion selon laquelle "nos résultats montrent que même des systèmes d’IA quasi-inhumains peuvent avoir des modes de défaillance surprenants" est vide.