A Hitchhiker’s Guide On Distributed Training of Deep Neural Networks
スポンサーリンク
論文URL
https://arxiv.org/pdf/1810.11787.pdf 2018年10月公開
ポイント
- 大規模なハードウェア環境での高速学習に関する論文
- 精度はSynchronous SGDがAsynchronous SGDより良い
- Layer-wise Adaptive Rate Scaling(LARS)を推奨
- 層ごとに、weightとgradの大きさから学習率を調整
スポンサーリンク