Deep Gamblers: Learning to Abstain with Portfolio Theory - 医療系AIエンジニアの技術メモ

f:id:y_kurashina:20191215222440p:plain — Fig1. Toy problemによるDeep Gamblersの評価

論文URL

https://arxiv.org/pdf/1907.00208.pdf
2019年公開 NeurIPS2019に採択されている。

ポイント

クラス分類において、推論結果の採用可否を学習するDeep Gamblersを提案
- 競馬を題材にポートフォリオ理論をクラス分類問題に適用
- mクラス分類問題に不採用クラスを追加し、m+1クラス分類問題として定式化
  - 教師データは通常通り、mクラスのラベルが付いていれば良い。
  - 不採用クラスを学習するために、オッズ(分類が正解した場合の報酬)をハイパーパラメータとして設定する必要がある。
    - 本論文ではオッズをGrid Searchで求めている。
  - 推論時にどの程度のサンプルを不採用にするかは、不採用クラス確率に対する閾値で調整可能
- Toy problemで、分類しにくいデータだけでなく、未学習のデータも適切に不採用にできたことを確認している(Fig1)
  - Toy problemでは、二つの2次元ガウス分布を分類
    - Fig1(a)の赤・青のデータ分布を学習。Fig1(a)の緑のデータは学習時には存在していない第3のガウス分布
    - F1g1(c)がDeep Gamblersの結果で、黄色のデータが不採用としたデータ
      - 分布の重なっている最小限の領域と未学習の領域を効果的に不採用にできている
    - Fig1(b)は既存手法の結果で、未学習領域を上手く不採用にできているものの、分布の重なっている領域をかなり広く不採用にしてしまっている。

Deep Gamblers

単勝(1位を当てた場合だけ賞金を獲得)の競馬を題材に、以下の定式化を行う
始めに、全資金をどれかの馬に賭けるケースを考える。
- 変数定義
  - $m$ ：出走する馬の数（＝分類クラス数）
  - $i$ ：馬のインデックス（＝クラス番号）
  - $\bf b$ ：各出走馬に賭ける手持ち資金の割合ベクトル（＝分類クラス確率）
  - ：各出走馬のオッズベクトル
    - 最終的には、スカラーのハイパーパラメータとして扱う（＝本論文では、分類クラスに依存させていない）
  - $\bf p$ ：勝ち馬を表すone-hotベクトル（＝教師ラベル）
- レースの後の資金増加割合
  - $\otimes$ ：アダマール積
- doubling rate (資金増加割合のlog) $W$ は
  $W = \sum _ {i = 1} ^ m p _ i \log (b _ i o _ i)$
  となり、 $o _ i = 1$ であればsoftmax lossと一致する。
続いて、の割合の資金を賭けずに残すことを考えると、レースの後の資金増加割合は

となり、doubling rateが

となる。
- oをスカラーにする場合、の範囲でoを調整する必要が有る。
  - $o \le 1$ の場合、常に推論結果を不採用にするのが最適解となる。
  - $o \ge m$ の場合、常に推論結果を採用するのが最適解となる。