医療系AIエンジニアの技術メモ

ディープラーニング(主に画像系)の技術メモブログです

A Hitchhiker’s Guide On Distributed Training of Deep Neural Networks

スポンサーリンク


論文URL

https://arxiv.org/pdf/1810.11787.pdf
2018年10月公開

ポイント

  • 大規模なハードウェア環境での高速学習に関する論文
  • 精度はSynchronous SGDがAsynchronous SGDより良い
    • 終結論でSynchronous SGDをrecommendしている
  • Layer-wise Adaptive Rate Scaling(LARS)を推奨
    • 層ごとに、weightとgradの大きさから学習率を調整

スポンサーリンク