본문 바로가기

논문리뷰/XAI

[논문 리뷰] An Overview of Interpretability of Machine Learning

728x90
반응형

XAI (Explainable AI) 에 대해서 배우기 앞서, 첫번째로 리뷰할 논문은 XAI에 대한 전반적인 연구들을 리뷰한 논문이다.

논문 정보는 아래와 같다.

 

Gilpin, L. H., Bau, D., Yuan, B. Z., Bajwa, A., Specter, M., & Kagal, L. (2018, October). Explaining explanations: An overview of interpretability of machine learning. In 2018 IEEE 5th International Conference on data science and advanced analytics (DSAA) (pp. 80-89). IEEE.

ISO 690

Black box모델에 대해서 설명력을 확보하는 것은 매우 어려운 일이다.

예를 들어서, ResNet 같은 경우, 하나의 이미지를 분류하는 데에만 대략 5천만개의 파라미터를 필요로 한다.

과연 이 5천만개에 대한 해석을 가능할 수 있을까??

거의 불가능에 가까울 것이다.

지금까지 제안 된 XAI 모델들은 크게 두 가지 방법으로 정의된다.

(1) Proxy model

Proxy model 은 해석 그대로 근사 방법이다.

논문에서 사용된 정의를 보자면 아래와 같다.

"behaves similarly to the original model, but in a way that is easier to explain"

한 마디로 설명하고자 하는 모델을 설명하기 쉬운 모델로 근사하는 것이다.

(2) Salience map

논문에서 사용된 정의는 아래와 같다.

"highlight a small portion of the computation which is most relevant"

솔직히 정의만 봐서는 어떻게 하는지 잘 모르겠다.

나중에 알아보도록 하자.

이제 두 방법에 대해서 대표적인 연구들을 살펴보겠다.

1. Proxy model

(1) Linear Proxy Models

첫 번째 Proxy model은 LIME [1] 이다.

LIME은 XAI에서 유명한 방법이므로 추후에 더 자세히 포스팅 할 예정이다.

(2) Decision Trees

의사결정 나무는 설명 가능 모델로, 우리에게 친근한 모델이다.

즉, Proxy를 하되, Deep 한 모델을 같은 예측력을 가지는 의사결정나무로 대체하는 것이다.

본 리뷰논문에서 제시된 연구로는 DeepRED [2] 와 ANN-DT [3]가 있다.

(3) Automatic-Rule Extraction

Automatic-Rule Extraction 방법은 신경망에서 각 뉴런이 가지는 연산을 흉내낼 수 있는 if-then 규칙을 만드는 것이다.

KT method [4]는 모든 뉴런에 대해서 if-then 규칙을 만들지만, 신경망이 깊어질수록 Rule의 수가 기하급수적으로 많아진다는 단점이 있다

2. Salience Mapping

Sailience Mapping은 현재 XAI에서 많은 관심을 받고 있다.

해당 방법은 데이터의 일부분을 가지고 네트워크의 아웃풋에 얼마나 영향을 미치는지를 mapping 한다.

유명한 연구로, LRP [5], DeepLIFT [6], CAM [7], Grad-CAM [8] 이 있다.

[1] M. T. Ribeiro, S. Singh, and C. Guestrin, “Why should i trust you?: Explaining the predictions of any classifier,” in Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2016, pp. 1135–1144.

[2] J. R. Zilke, E. L. Menc´ıa, and F. Janssen, “Deepred–rule extraction from deep neural networks,” in International Conference on Discovery Science. Springer, 2016, pp. 457–473.

[3] G. P. Schmitz, C. Aldrich, and F. S. Gouws, “Ann-dt: an algorithm for extraction of decision trees from artificial neural networks,” IEEE Transactions on Neural Networks, vol. 10, no. 6, pp. 1392–1401, 1999.

[4] L. Fu, “Rule generation from neural networks,” IEEE Transactions on Systems, Man, and Cybernetics, vol. 24, no. 8, pp. 1114–1124, 1994.

[5] S. Bach, A. Binder, G. Montavon, F. Klauschen, K.-R. M ¨uller, and W. Samek, “On pixel-wise explanations for non-linear classifier decisions by layer-wise relevance propagation,” PloS one, vol. 10, no. 7, p. e0130140, 2015.

[6] A. Shrikumar, P. Greenside, and A. Kundaje, “Learning important features through propagating activation differences,” arXiv preprint arXiv:1704.02685, 2017.

[7] B. Zhou, A. Khosla, A. Lapedriza, A. Oliva, and A. Torralba, “Learning deep features for discriminative localization,” in Computer Vision and Pattern Recognition (CVPR), 2016 IEEE Conference on. IEEE, 2016, pp. 2921–2929.

[8] R. R. Selvaraju, M. Cogswell, A. Das, R. Vedantam, D. Parikh, and D. Batra, “Grad-cam: Visual explanations from deep networks via gradient-based localization,” See https://arxiv. org/abs/1610.02391 v3, vol. 7, no. 8, 2016.

반응형

'논문리뷰 > XAI' 카테고리의 다른 글

[논문 리뷰] Local Surrogate (LIME)  (0) 2020.04.29