SEARCHING FOR ACTIVATION FUNCTIONS
スポンサーリンク
論文URL
https://arxiv.org/pdf/1710.05941.pdf
2017年10月公開
ポイント
- Google Brainが強化学習で生成した活性化関数Swishを提案
- の極限ではReLUと一致する
- は学習可能だが、としても汎化性能に有意差無し。
- のケースは強化学習の問題で評価した先行研究があり、SiLU (Sigmoid-Weighted Linear Units)と呼ばれている。
- 使用時の注意点
- LSTM等のRNNモデルとの相性は未評価
- Transformerでは評価している。
- 既存モデルのBN層のscale項が無効化されていた場合、有効化する必要がある。
- ReLUでは線形なためscale項を学習する必要は無いが、Swishは非線形関数であるため。
- ReLU使用時よりも、学習率を少し小さくすると良い。
- LSTM等のRNNモデルとの相性は未評価
強化学習による活性化関数探索条件
- 単項演算と二項演算の組み合わせで活性化関数を生成
- ResNet20のReLUを生成した活性化関数で置き換え、CIFAR-10で高精度となる活性化関数を探索
他の活性化関数との比較
- 比較対象活性化関数
- ReLU
- LReLU ( Leaky ReLU )
- PReLU ( Parametric ReLU )
Leaky ReLUのパラメータαを学習するもの - Softplus
- ELU ( Exponential Linear Unit )
- SELU : Scaled Exponential Linear Unit
- GELU : Gaussian Error Linear Unit
は正規分布の積算確率分布
- 実験対象データセットとモデル
- CIFAR10, 100
- ResNet164, Wide ResNet28-10, DenseNet100-12
- ImageNet
- Inception-ResNet-v2, Inception-v4, Inception-v3, MobileNet, Mobile NASNet-A
- WMT 2014 English!German dataset
- Transformer
- CIFAR10, 100
- 他の活性化関数との比較結果