CoRR 2018 | Horovod: Fast and Easy Distributed Deep Learning in Tensorflow

时间：2020-03-28 13:04:36 阅读：91 评论：0 收藏：0 [点我收藏+]

标签：orm lin 广播 glob inception 模型 figure saving 操作

将深度学习模型的训练从单GPU扩展到多GPU主要面临以下问题：(1)训练框架必须支持GPU间的通信，(2)用户必须更改大量代码以使用多GPU进行训练。为了克服这些问题，本文提出了Horovod，它通过Ring Allreduce实现高效的GPU间通信，而且仅仅更改少量代码就可以实现多GPU训练。

TensorFlow中提供了一些分布式训练的API，这些API适用于不同的环境。这就导致用户往往不知道如何更改代码以进行分布式训练，而且debug也很困难。再者，TensorFlow的分布式训练性能与理想的性能相差甚远，尤其是在大规模GPU环境下。如图1所示，随着GPU数量的增加，分布式TensorFlow的吞吐量与理想的吞吐量的差距逐渐增加，加速比逐渐降低。

技术图片

因为目前单GPU可以容纳大部分深度学习模型，所以本文主要针对数据并行进行优化。首先来看一下数据并行的训练过程：

运行多个模型副本
(a) 读取一部分数据
(b) 把数据喂给模型，进行前向传播
(c) 反向传播，计算梯度
将多个模型的梯度进行平均
更新模型
重复上述步骤直到模型收敛

技术图片

在标准的TensorFlow中，分布式训练使用参数服务器架构，如图3所示。在参数服务器架构中，主要有worker和server两种角色。worker负责处理数据，计算梯度然后把梯度传给server；server负责聚合梯度，更新模型，然后把模型传回worker。

技术图片

在这上述两种模式下，主要有以下两个挑战：

如何确定worker和server的数量。如果只使用1台server，那么这台server可能成为计算和网络瓶颈；如果使用多台server，那么通信模式就类似于all-to-all，这样就不能完整利用网络带宽。
处理愈加复杂的TensorFlow程序。在TensorFlow中，必须显式地启动worker和server，传递一堆参数然后更新代码，这就使得分布式训练变得非常繁琐复杂。

所幸的是，2017年百度提出了一种名为Ring Allreduce的算法。在该算法中，所有worker组成一个环，每台worker只和相邻的两台worker通信，如图4所示。

技术图片

在Ring Allreduce中，如果有\(N\)个节点，那么每个节点会通信\(2\times (N -1)\)次：前\(N-1\)次接收值并把它加到对应的buffer中，后\(N-1\)次接收并替换对应buffer中的值。Ring Allreduce算法是带宽最优的，也就是说，当buffer足够大时，它会最大限度地利用网络带宽。

综上所述，本文取长补短，使用Ring Allreduce算法优化TensorFlow的分布式训练过程。本文的实现流程如下：

将代码转换成独立的Python包，名为Horovod
将百度的Ring Allreduce实现替换为NCCL
增加了对单机多GPU训练的支持
根据反馈更新了部分API，还实现了一个广播操作，以在所有worker上进行强制一致性初始化

import tensorflow as tf
import horovod.tensorflow as hvd

# Initialize Horovod
hvd.init()

# Pin GPU to be used to process local rank (one GPU per process)
config = tf.ConfigProto()
config.gpu_options.visible_device_list = str(hvd.local_rank())

# Build model...
loss = ...
opt = tf.train.AdagradOptimizer(0.01)

# Add Horovod Distributed Optimizer
opt = hvd.DistributedOptimizer(opt)

# Add hook to broadcast variables from rank 0 to all other process
# during initialization.
hooks = [hvd.BroadcastGlobalVariablesHook(0)]
train_op = opt.minimize(loss)

# The MonitoredTrainingSession takes care of session initialization,
# restoring from a checkpoint, saving to a checkpoint, and closing
# when done or an error occurs.
with tf.train.MonitoredTrainingSession(checkpoint="/tmp/train_logs", 
                                       config=config, hooks=hooks) as mon_sess:
    while not mon_sess.should_stop():
    # Perform synchronous training
    mon_sess.run(trian_op)

此外，Horovod还提供了一个名为Timeline的分析工具，它可以让用户每个节点在每次迭代时做了什么，效果如图5所示。

技术图片