码迷,mamicode.com
首页 > 其他好文 > 详细

CS231n 2016 通关 第五章 Training NN Part1

时间:2016-07-20 13:19:49      阅读:166      评论:0      收藏:0      [点我收藏+]

标签:

上一次总结中,总结了NN的基本结构。

接下来的几次课,对一些具体细节进行讲解。

比如激活函数、参数初始化、参数更新等等。

=========================================================================================

首先,课程做 一个小插曲:

技术分享

  经常使用已经训练好的模型》》Finetune network

  具体例子:

  技术分享技术分享

    使用现成模型,修改部分层,使用现成的参数做初始参数。

  以caffe为例,其提供了很多现成的模型:

    https://github.com/BVLC/caffe/wiki/Model-Zoo

  使用Finetune 主要是计算资源有限。

技术分享

其次是上节课主要内容的简单回顾:  

技术分享

  概括了NN的主要流程: 得到数据 ---》前向传播 ---》反向传播 ---》更新参数

另外便是链式法则:

技术分享技术分享

  实例:

技术分享技术分享

 

NN的结构特点:

  加入非线性:

技术分享

  与神经系统比较:

技术分享

  多层NN结构:

技术分享

  注意: 有些资料把输入层也算在NN的层数里。

=========================================================================================

本章的内容如下:

一些历史回顾

  简单的字母识别系统:

技术分享

  当时就使用了伪梯度下降。其实不是严格可导。

  之后形成了网络结构,并使用电路实现:

技术分享

  进一步形成了多层网络:

技术分享

  反向传播算法开始流行起来。

  Deep Learning :

技术分享

  使用了非监督学习进行预处理,然后将得到的结果放到back propagation中。如今不需要这样做了。

  技术革新:

技术分享

  2012年的图像分类结果最优。从此DL火起来了。

技术内容总览:

技术分享

=========================================================================================

1、激活函数

  激活函数的作用:

技术分享

  常用激活函数:

技术分享

  Sigmoid:特点以及缺陷

  技术分享  技术分享

  比较左侧s输入值与经过f后的输出值,会导致梯度消失、数值溢出。

  技术分享  技术分享

  当输入为正时,偏导均为正或均为负。 

技术分享

  tanh:

  技术分享

  仍然会有梯度消失的后果。

  ReLU (Rectified Linear Unit):

技术分享

 

  其不会有溢出,计算更快。当x<0时,梯度为0.

  缺点:出现死亡状态。

  技术分享技术分享

  为负值输入时,不能更新参数。一般是学习率过高导致。另外使用合适的初始化,比如加入小的bias。

  Leaky ReLU :解决负值不能更新参数。

技术分享

  ELU:

技术分享

 

CS231n 2016 通关 第五章 Training NN Part1

标签:

原文地址:http://www.cnblogs.com/wangxiu/p/5687788.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!