“Why Should I Trust You?” Explaining the Predictions of Any Classifier
スポンサーリンク
論文URL
https://www.kdd.org/kdd2016/papers/files/rfp0573-ribeiroA.pdf
2016年公開
ポイント
- 分類モデルの分類根拠理由を可視化する手法LIME (Local Interpretable Model-agnostic Explanations) を提案
- ある入力サンプルに対する分類モデルの振る舞いを人間が理解可能な簡易モデルで近似し、入力データのどの部分が分類に寄与したかを可視化
- 入力データが画像の場合、分類に寄与したスーパーピクセルを抽出
- 入力データがテキストの場合、分類に寄与した単語を抽出
- 論文中で実験された簡易モデルはLasso回帰
画像データに対するLIME使用例
- Fig1(a)の画像をInception networkで推論し、推論確率上位3クラスに対してLIMEをかけた結果が(b)~(d)の結果である。
- (b) エレキギター(確率32%)の根拠領域
- (c) アコースティックギター(確率24%)の根拠領域
- (d) ラブラドール(確率21%)の根拠領域
ハスキー犬と狼の分類事例
- 学習データで、狼の画像は必ず雪がある画像とし、ハスキー犬の画像では雪がない画像を使用
- テスト時に、雪中のハスキー犬画像(Fig2(a))を分類したところ狼と分類され、LIMEで可視化した根拠領域がハスキー犬の部分ではなく雪のみとなっている(Fig2(b)
- このように不自然な根拠領域が抽出された場合、教師データに何らかの偏りが存在すると示唆される。