标签:消失 func strong 尺寸 current time 矩阵 设置 forward
从神经网络说起:深度学习初学者不可不知的25个术语和概念(上)
http://www.36dsj.com/archives/85406
1,神经元;2,权重;3,偏置:用来改变输入的范围。4,激活函数f(x):将输入信号翻译成输出信号。最常用的激活函数有Sigmoid、ReLU 和softmax。5,神经网络:训练神经网络,更新偏置值,目标是找到未知函数的一个近似值。6,输入层、输出层、隐含层,7,多层神经网络MLP,每一层上的神经元都和下一层上的神经元连接在一起,全互连网络(fully connected networks);8,正向传播(forward propagation)。9,成本函数(损失函数)(cost function):最小化成本函数,即为最优化输出。学习过程就是围绕着 如何最小化成本。10,梯度下降(gradient descent):11,学习速率(learning rate):学习率指每次迭代中 对成本函数的“最小化次数”。12,反向传播(back propagation):一次迭代后,根据产生的结果计算出整个网络的偏差,然后用偏差结合“成本函数的梯度”,对“权重因子进行调整”,使得下次迭代的过程中偏差变小。这样一个结合 成本函数的梯度 来调整 权重因子 的过程就叫做反向传播。13,分批(batches):当训练一个神经网路时,不应一次性发送全部输入信号,而应把输入信号随机分成几个大小相同的数据块发送。将数据分批发送,建立的模型会更具有一般性。14,周期(epochs):一个周期表示对 所有的数据批次 都进行了一次迭代,包括一次正向传播和一次反向传播。往往周期数越高,模型的准确性就越高,但是耗时就越长,同样周期/纪元的次数过高,可能会出现“过拟合”的情况。。15,dropout方法,训练过程中隐藏的某些特定神经元会被忽略掉(drop)。16,分批标准化(batch normalization),为了保证下一层网络得到的数据拥有合适的分布。因此在每一次数据传递前都需要对数据进行一次正则化处理。17,过滤器/滤波器(filters),将一个权重矩阵乘以输入图像的一个部分,产生相应的卷积输出。18,卷积神经网络CNN(convolutional neural network),卷积的过程。19,池化(pooling):最大化池16->4->1,取最大值。20,补白(padding),指给图像的边缘增加额外的空白,从而使得卷积后输出的图像跟输入图像在尺寸上一致,这也被称作相同补白(Same Padding),21数据增强(data augmentation):从已有数据中创造出新的数据,通过增加训练量以期望能够提高预测的准确率。通过“旋转”“照亮”的操作,训练数据的品质得到了提升,这种过程被称作数据增强 。22,递归神经元经由自己处理过的数据,会变成自身下一次的输入,这个过程进行t次。
23,递归神经网络(RNN,recurrent neural network),常被用于处理序列化的数据,即前一项的输出 是用来预测下一项的输入。递归神经网络中存在环的结构,这些神经元上的环状结构使得它们能够存储之前的数据一段时间,从而使得能够预测输出。在RNN中隐含层的输出会作为下一次的输入,如此往复经历t次,再将输出的结果传递到下一层网络中。这样,最终输出的结果会更全面,而且之前训练的信息被保持的时间会更久。隐藏层将反向传递错误以更新权重。这被称为backpropagation through time (BPTT).
24,梯度消失问题,当激活函数的梯度非常小时,在反向传播过程中,权重因子会被多次乘以这些小的梯度。因此会越变越小,随着递归的深入趋于“消失”,出现梯度消失问题。这一问题可通过采用ReLu等没有小梯度的激活函数来有效避免。
25,梯度爆炸问题:激活函数的梯度过大,在反向传播过程中,部分节点的大梯度使得他们的权重变得非常大,从而削弱了其他节点对于结果的影响。这个问题可以通过截断(即设置一个梯度允许的最大值)的方式来有效避免。
标签:消失 func strong 尺寸 current time 矩阵 设置 forward
原文地址:http://www.cnblogs.com/li-20151130/p/7455082.html