XSub: Explanation-Driven Adversarial Attack against Blackbox Classifiers via Feature Substitution

Vu, Kiana; Lai, Phung; Nguyen, Truc

doi:10.1109/BigData62323.2024.10825935

XSub: Explanation-Driven Adversarial Attack against Blackbox Classifiers via Feature Substitution

Conference · Thu Jan 16 04:00:00 EST 2025

DOI:https://doi.org/10.1109/BigData62323.2024.10825935· OSTI ID:2529417

Vu, Kiana; Lai, Phung; Nguyen, Truc

Despite its significant benefits in enhancing the transparency and trustworthiness of artificial intelligence (AI) systems, explainable AI (XAI) can unintentionally provide adversaries with insights into blackbox models, increasing their vulnerability to various attacks. In this paper, we develop a novel explanation-driven adversarial attack against blackbox classifiers based on feature substitution, called XSub. The key idea of XSub is to strategically replace important features (identified via XAI) in the original sample with corresponding important features of a different label, thereby increasing the likelihood of the model misclassifying the perturbed sample. XSub only requires a minimal number of queries and can be easily extended to launch backdoor attacks in case the attacker has access to the model's training data. Our evaluation shows that XSub is not only effective and stealthy but also low-cost, showcasing its feasibility across a wide range of AI applications.

🛈

OSTI does not have a digital full text copy available. For more information, please see document availability, search WorldCat, or search Google Scholar.

Research Organization:: National Renewable Energy Laboratory (NREL), Golden, CO (United States)

Sponsoring Organization:: USDOE National Renewable Energy Laboratory (NREL), Laboratory Directed Research and Development (LDRD) Program

DOE Contract Number:: AC36-08GO28308; AC36-08GO28308

OSTI ID:: 2529417

Report Number(s):: NREL/CP-2C00-91278; MainId:93056; UUID:aa0173b0-4d16-4bbc-82a4-74752605ee4a; MainAdminId:75411

Country of Publication:: United States

Language:: English

References (18)

Circular Arc Length-Based Kernel Matrix For Protein Sequence Classification Murad, Taslim; Ali, Sarwan; Chourasia, Prakash 2023 IEEE International Conference on Big Data (BigData) https://doi.org/10.1109/BigData59044.2023.10386477	conference	December 2023
Explainability-based adversarial attack on graphs through edge perturbation Chanda, Dibaloke; Gheshlaghi, Saba Heidari; Soltani, Nasim Yahya Knowledge-Based Systems, Vol. 310 https://doi.org/10.1016/j.knosys.2024.112895	journal	February 2025
XRand: Differentially Private Defense against Explanation-Guided Attacks Nguyen, Truc; Lai, Phung; Phan, Hai Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 37, Issue 10 https://doi.org/10.1609/aaai.v37i10.26401	journal	June 2023
NeuCEPT: Learn Neural Networks’ Mechanism via Critical Neurons with Precision Guarantee Vu, Minh N.; Nguyen, Truc D.; Thai, My T. 2022 IEEE International Conference on Data Mining (ICDM) https://doi.org/10.1109/ICDM54844.2022.00059	conference	November 2022
Towards Evaluating the Robustness of Neural Networks Carlini, Nicholas; Wagner, David 2017 IEEE Symposium on Security and Privacy (SP) https://doi.org/10.1109/SP.2017.49	conference	May 2017
HopSkipJumpAttack: A Query-Efficient Decision-Based Attack Chen, Jianbo; Jordan, Michael I.; Wainwright, Martin J. 2020 IEEE Symposium on Security and Privacy (SP) https://doi.org/10.1109/SP40000.2020.00045	conference	May 2020
“Why Should I Trust You?”: Explaining the Predictions of Any Classifier Ribeiro, Marco; Singh, Sameer; Guestrin, Carlos Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations https://doi.org/10.18653/v1/N16-3020	conference	January 2016
Model Reconstruction from Model Explanations Milli, Smitha; Schmidt, Ludwig; Dragan, Anca D. Proceedings of the Conference on Fairness, Accountability, and Transparency https://doi.org/10.1145/3287560.3287562	conference	January 2019
The "Beatrix" Resurrections: Robust Backdoor Detection via Gram Matrices Ma, Wanlun; Wang, Derui; Sun, Ruoxi Proceedings 2023 Network and Distributed System Security Symposium https://doi.org/10.14722/ndss.2023.23069	conference	January 2023
Explanation-Guided Adversarial Example Attacks Yan, Anli; Liu, Xiaozhang; Li, Wanman Big Data Research, Vol. 36 https://doi.org/10.1016/j.bdr.2024.100451	journal	May 2024
Exploiting Explanations for Model Inversion Attacks Zhao, Xuejun; Zhang, Wencan; Xiao, Xiaokui 2021 IEEE/CVF International Conference on Computer Vision (ICCV) https://doi.org/10.1109/ICCV48922.2021.00072	conference	October 2021
Boosting Adversarial Attacks with Momentum Dong, Yinpeng; Liao, Fangzhou; Pang, Tianyu 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition https://doi.org/10.1109/CVPR.2018.00957	conference	June 2018
c-Eval: A Unified Metric to Evaluate Feature-based Explanations via Perturbation Vu, Minh N.; Nguyen, Truc D.; Phan, NhatHai 2021 IEEE International Conference on Big Data (Big Data) https://doi.org/10.1109/BigData52589.2021.9671895	conference	December 2021
From local explanations to global understanding with explainable AI for trees Lundberg, Scott M.; Erion, Gabriel; Chen, Hugh Nature Machine Intelligence, Vol. 2, Issue 1 https://doi.org/10.1038/s42256-019-0138-9	journal	January 2020
Robust Fraud Detection via Supervised Contrastive Learning Vinay, M. S.; Yuan, Shuhan; Wu, Xintao 2023 IEEE International Conference on Big Data (BigData) https://doi.org/10.1109/BigData59044.2023.10386925	conference	December 2023
Explanation leaks: Explanation-guided model extraction attacks Yan, Anli; Huang, Teng; Ke, Lishan Information Sciences, Vol. 632 https://doi.org/10.1016/j.ins.2023.03.020	journal	June 2023
On the Privacy Risks of Model Explanations Shokri, Reza; Strobel, Martin; Zick, Yair Proceedings of the 2021 AAAI/ACM Conference on AI, Ethics, and Society https://doi.org/10.1145/3461702.3462533	conference	July 2021
EG-Booster: Explanation-Guided Booster of ML Evasion Attacks Amich, Abderrahmen; Eshete, Birhanu Proceedings of the Twelfth ACM Conference on Data and Application Security and Privacy https://doi.org/10.1145/3508398.3511510	conference	April 2022

Similar Records

Attack on Grid Event Cause Analysis: An Adversarial Machine Learning Approach

Conference · Fri Jan 31 23:00:00 EST 2020 · 2020 IEEE Power & Energy Society Innovative Smart Grid Technologies Conference (ISGT) · OSTI ID:1958805

Defending Against Adversarial Examples

Technical Report · Sun Sep 01 00:00:00 EDT 2019 · OSTI ID:1569514

Sign-OPT: A Query-Efficient Hard-label Adversarial Attack

Conference · Sun Apr 26 00:00:00 EDT 2020 · OSTI ID:1958845

Related Subjects

MATHEMATICS AND COMPUTING
adversarial attack
adversarial machine learning
backdoor attack
explainable AI

XSub: Explanation-Driven Adversarial Attack against Blackbox Classifiers via Feature Substitution

Citation Formats

References (18)

Similar Records

Related Subjects