医療系AIエンジニアの技術メモ

ディープラーニング（主に画像系）の技術メモブログです

A Hitchhiker’s Guide On Distributed Training of Deep Neural Networks

論文メモ

スポンサーリンク

論文URL

https://arxiv.org/pdf/1810.11787.pdf
2018年10月公開

ポイント

大規模なハードウェア環境での高速学習に関する論文
精度はSynchronous SGDがAsynchronous SGDより良い
- 最終結論でSynchronous SGDをrecommendしている
Layer-wise Adaptive Rate Scaling(LARS)を推奨
- 層ごとに、weightとgradの大きさから学習率を調整

スポンサーリンク