分布式同步SGD与异步SGD
深度学习分布式训练的典型方法是基于异步随机优化,这样的方式往往以增加由异步带来的随机噪音为代价。与之相反,同步的方式常常被认为不实际,这是因为部分workers需要浪费大量空闲时间等待拖后腿的wokers。文献[1]中作者们对同步的随机优化进行了改进,使深度学习算法可被高效的训练且性能得到提升。确切的说,缓和同步随机优化中拖后腿的方法是:只同步计算部分wokers的mini-batch梯度,其余的梯度drop掉。这种方式不仅减轻了拖后腿效应也避免了梯度的过时性。
深度学习分布式训练的典型方法是基于异步随机优化,这样的方式往往以增加由异步带来的随机噪音为代价。与之相反,同步的方式常常被认为不实际,这是因为部分workers需要浪费大量空闲时间等待拖后腿的wokers。文献[1]中作者们对同步的随机优化进行了改进,使深度学习算法可被高效的训练且性能得到提升。确切的说,缓和同步随机优化中拖后腿的方法是:只同步计算部分wokers的mini-batch梯度,其余的梯度drop掉。这种方式不仅减轻了拖后腿效应也避免了梯度的过时性。