神经网络与BP算法

时间：2019-11-12 20:07:46 阅读：102 评论：0 收藏：0 [点我收藏+]

标签：图片多层就是获得方法 tab 过程基本概念 nbsp

摘要：本文主要介绍了神经网络的基本概念以及误差反向传播算法的推导。

1、关于神经网络的几个重要概念

神经元模型：类似于神经元细胞结构的模型。如下图：

技术图片

解释：每一个神经元都是相对独立的，将输入的若干个数据经过加权处理之后求和，作为一个总体输入（在上图中就是线性模型），然后将该总体输入作为变量送给激活函数，得到的函数值作为神经元的输出。

激活函数：是神经元模型的核心，也被称为感知器，常用的激活函数如下（sigmoid函数）：

技术图片

解释：从上面的左图可以看到，当x的值（也就是输入信号的加权和）为负数（一般小于-5时）时，得到的输出值就会变成0，而当输入值较大时则会有比较明确的反应，也就是表明这样的激活函数对信号有选择作用。

神经网络：由很多的神经元按照一定的体系架构形成的网络结构，这个网络结构中包含有很多层，包括输入层、隐含层、输出层，而根据隐含层的数量可以分成深度神经网络（例如几十层、几百层）和浅层神经网络（例如三到五层）：

技术图片

前馈神经网络：信号只向后面一层中传播，开环的网络结构。
目标函数：这个函数存在的意义就是评价输出结果和实际结果的接近程度。一般来讲，越接近，训练的模型精度越高。例如下面的累计误差函数：

技术图片

2、梯度下降

从目标函数J(w)的形式来看，它是关于w的函数，而为了提高训练精度，目标就是求取函数J(w)的最小值，直接通过求取极值的方式来进而获取最小值的方式实施起来是很困难的，所以就采用了梯度下降的方法，如下图：

技术图片

在上面的三维图中，纵向的坐标就是J(w)的函数值，横向的坐标就是w值。实现梯度下降的方法是首先随机确定初始点，然后依照梯度下降的方向（这个方向可以用求导的方法得到）按照一定的步长（步长的选取十分关键）进行w值的调整，这样就导致了J(w)值的减小，一直到这个值减小到最小，那么这个时候的权重w就是对应的最佳值，得到的模型也就是最佳模型。也就是说，梯度下降的过程就是寻找最佳w值的过程。

在深度神经网络中，权重w可以分成两个部分：输出层权重和隐含层权重，那么如何调整两种权重呢？或者说如何找到相应的权重改变量呢？其实这个问题可以理解成如何找到梯度下降的方向：