标签:
这篇论文是 Berkeley 大学 Michael I. Jordan 组的 ICLR2016(under review) 的最新论文,有兴趣可以看看原文和源码:paper,github .
训练深度神经网络是一个非常耗时的过程,比如用卷积神经网络去训练一个目标识别任务需要好几天来训练。因此,充分利用集群的资源,加快训练速度成了一个非常重要的领域。不过,当前非常热门的批处理计算架构(例如:MapReduce 和 Spark)都不是设计用来专门支持异步计算和现有的一些通信密集型的深度学习系统。
SparkNet 是基于Spark的深度神经网络架构,
- 它提供了便捷的接口能够去访问Spark RDDs;
- 同时提供Scala接口去调用caffe;
- 还拥有一个轻量级的tensor 库;
- 使用了一个简单的并行机制来实现SGD的并行化,使得SparkNet能够很好的适应集群的大小并且能够容忍极高的通信延时;
- 它易于部署,并且不需要对参数进行调整;
- 它还能很好的兼容现有的caffe模型;
下面这张图是SparkNet的架构:
从上图可以看出,Master 向每个worker 分发任务之后,各个worker都单独的使用Caffe(利用GPU)来进行训练。每个worker完成任务之后,把参数传回Master。论文用了5个节点的EC2集群,broadcast 和 collect 参数(每个worker几百M),耗时20秒,而一个minibatch的计算时间是2秒。
SparkNet 是建立在Apache Spark和Caffe深度学习库的基础之上的。SparkNet 用Java来访问Caffe的数据,用Scala来访问Caffe的参数,用ScalaBuff来使得Caffe网络在运行时保持动态结构。SparkNet能够兼容Caffe的一些模型定义文件,并且支持Caffe模型参数的载入。
下面简单贴一下SparkNet的api和模型定义、模型训练代码。
为了让模型能够在带宽受限的环境下也能运行得很好,论文提出了一种SGD的并行化机制使得最大幅度减小通信,这也是全文最大了亮点。这个方法也不是只针对SGD,实际上对Caffe的各种优化求解方法都有效。
在将SparkNet的并行化机制之前,先介绍一种Naive的并行机制。
Spark拥有一个master节点和一些worker节点。数据分散在各个worker中的。
在每一次的迭代中,Spark master节点都会通过broadcast(广播)的方式,把模型参数传到各个worker节点中。
各个worker节点在自己分到的部分数据,在同一个模型上跑一个minibatch 的SGD。
完成之后,各个worker把训练的模型参数再发送回master,master将这些参数进行一个平均操作,作为新的(下一次迭代)的模型参数。
这是很多人都会采用的方法,看上去很对,不过它有一些缺陷。
这个缺陷就是需要消耗太多的通信带宽,因为每一次minibatch训练都要broadcast 和 collect 一次,而这个过程特别消耗时间(20秒左右)。
令
令
显然,使用SGD达到准确率为
假设有
的时间消耗就是:
基本上过程和Naive 并行化差不多。唯一的区别在于,各个worker节点每次不再只跑一个迭代,而是在自己分到的一个minibatch数据集上,迭代多次,迭代次数是一个固定值
τ 。
SparkNet的并行机制是分好几个rounds来跑的。在每一个round中,每个机器都在batch size为
我们用
因此,SparkNet需要的时间消耗就是:
下面这张图,很直观的对比了Naive 并行机制跟 SparkNet 并行机制的区别:
Naive 并行机制:
SparkNet 并行机制:
论文还做了各种对比实验,包括时间,准确率等。实验模型采用AlexNet,数据集是ImageNet的子集(100类,每类1000张)。
假设
上面的表格还是体现了一些趋势的:
(1). 看第一行,当
(2). 看最右边这列,当
(3). 注意到每一行的值并不是从左到右一直递增的。
当
可以看到,当
而作者实验用EC2环境,
论文还做了一些事情,比如:
令
当
总结一下,这篇论文其实没有太多复杂的创新(除了SGD并行化时候的一点小改进),不过我很期待后续的工作,同时也希望这个SparkNet能够维护的越来越好。有时间的话,还是很想试试这个SparkNet的
标签:
原文地址:http://blog.csdn.net/lxy869735855/article/details/51111729