1 points par GN⁺ 2024-12-25 | 1 commentaires | Partager sur WhatsApp

Informatique > Apprentissage automatique

  • Titre: Adversarial Policies Beat Superhuman Go AIs
  • Auteurs: Tony T. Wang, Adam Gleave, Tom Tseng, Kellin Pelrine, Nora Belrose, Joseph Miller, Michael D. Dennis, Yawen Duan, Viktor Pogrebniak, Sergey Levine, Stuart Russell
  • Date de soumission: 1er novembre 2022 (v1), dernière révision le 13 juillet 2023 (v4)

Résumé

  • L’équipe a entraîné des politiques adversariales contre KataGo, un système d’IA de Go de pointe, et a atteint un taux de victoire supérieur à 97 % contre KataGo en mode surhumain.
  • Les politiques adversariales ne gagnent pas en jouant mieux au Go, mais en poussant KataGo à commettre de graves erreurs.
  • Cette attaque se transfère en zéro-shot à d’autres IA de Go surhumaines, et elle est suffisamment interprétable pour qu’un expert humain puisse battre de manière constante l’IA surhumaine sans aide algorithmique.
  • Les vulnérabilités fondamentales restent présentes même dans les agents KataGo entraînés de manière adversariale pour contrer cette attaque.
  • Les résultats montrent que même des systèmes d’IA surhumains peuvent présenter des modes de défaillance surprenants.

Informations supplémentaires

  • Statut du papier: Accepté à ICML 2023
  • Sujet: Apprentissage automatique (cs.LG); Intelligence artificielle (cs.AI); Cryptographie et sécurité (cs.CR); Machine learning (stat.ML)
  • Classification ACM: I.2.6
  • Référence: arXiv:2211.00241 [cs.LG] (ou cette version arXiv:2211.00241v4 [cs.LG])
  • Historique des versions:
    • [v1] 1er novembre 2022
    • [v2] 9 janvier 2023
    • [v3] 18 février 2023
    • [v4] 13 juillet 2023

Méthodologie

  • Possibilité d’accéder au papier au format PDF et autres formats
  • Outils de citation et références connexes disponibles

Informations sur arXiv

  • arXiv est une plateforme de partage d’articles de recherche qui met à disposition des travaux sur une large variété de sujets.

1 commentaires

 
GN⁺ 2024-12-25
Commentaires Hacker News
  • Un utilisateur a noté que le papier paraissait étonnant au premier abord, mais qu’il était difficile à comprendre. Il sait un peu de go et d’IA Go, et il sait beaucoup d’échecs et d’IA d’échecs, mais il a trouvé les explications insuffisantes et remplies de jargon technique, ce qui lui a semblé difficile à comprendre.

    • Il pense que le papier cache leurs idées, qui peuvent être étonnantes et simples.
  • Il a cité des cas limites aux échecs et comparé les évaluations de Stockfish et de Lc0.

    • Dans le premier cas, Stockfish et Lc0 estiment que les Blancs sont légèrement avantagés.
    • Dans le deuxième et le troisième cas, les deux estiment que les Noirs gagnent.
    • Dans le quatrième cas, Lc0 comprend la position, mais Stockfish ne comprend pas.
  • Il a signalé qu’au go, un amateur peut devenir un adversaire difficile à cause de coups imprévisibles.

    • Des coups d’une forme anormale peuvent parfois être efficaces.
  • Il rappelle qu’après Deep Blue, les joueurs d’échecs ont amélioré leurs stratégies contre les ordinateurs.

    • Dans le cas du go, l’espace étant plus vaste, il peut y avoir davantage de stratégies anti-ordinateur.
    • Cela consiste à exploiter les failles de la fonction d’évaluation.
  • Il mentionne qu’aux échecs aussi, plus de calcul conduit parfois à la victoire.

    • L’Elo mesure les résultats en termes de victoires et de défaites ; le confondre avec la difficulté peut mener à une mauvaise inférence.
  • Il mentionne un papier modifié entre 2022 et 2023 et dit qu’il pourrait l’avoir déjà vu.

    • Il se demande à quel point cette approche serait efficace sur un moteur d’échecs de style Leela.
  • Il indique qu’il y a de l’espoir pour les humains aussi.

  • Il mentionne que le papier sera utilisé pour intégrer une défense face aux stratégies adversariales dans les IA de go.

    • C’est une curiosité innocente, mais cela reflète l’état global du développement de l’IA.
  • Il dit que la conclusion selon laquelle "nos résultats montrent que même des systèmes d’IA quasi-inhumains peuvent avoir des modes de défaillance surprenants" est vide.

    • Elle n’a aucune signification pour la future « superintelligence » ; un tel « mode de défaillance » peut exister ou pas.