标签:none 引入 label correct and 推广 tor 失效 高斯
深度学习在早期一度被认为是一种无监督的特征学习,模仿了人脑的对特征逐层抽象提取的过程。这其中两点很重要,一是无监督学习,即我们不需要标注数据就可以对数据进行一定程度的学习,这种学习是对数据内容的组织形式的学习,抽取的是频繁出现的特征,二是逐层抽象,特征是需要不断抽象的,就像人总是从简单基础的概念开始学习,再到复杂的概念。
简单的特征是可以不断抽象转化为高一级的特征的,那我们如何找到这些结构呢,然后如何抽象呢?如果我们有狠毒哦标注的数据,就可以训练一个深层的神经网络。如果没有标注的数据呢?这种情况下,我们依然可以使用无监督的自编码器来提取特征。自编码器,就是可以使用自身的高阶特征编码自己。自编码器也是一种神经网络,它的输入和输出是一直的,它借助稀疏编码的思想,目标是使用稀疏的一些高阶特征重新组合来重构自己。因此特点非常明显,第一,期望输入和输出一直,第二,希望使用高阶特征重构自己,而不是复制像素点。
自编码器通常希望使用少量稀疏的高阶特征来重构输入,所以我们可以加入几种限制:
去噪自编码器中最常使用的是加性高斯噪声AGN,其结构图如下:
当然也可以使用masking noise,即有随机遮挡的噪声,这样图像中的一部分像素被置为0,模型需要从其他像素结构推测出这些被遮挡的像素是什么,因此模型依然需要学习图像中抽象的高阶特征。
如果自编码器的隐含层只有一层,其原理类似于主成分PCA。
Hinton教授提出了基于深度信念网络(DBN),由多层RBM堆叠而成。我们可能很难直接训练极深的网络,但是可以用无监督的朱岑个训练提取特征,将网络的权重初始化到一个比较好的位置,辅助后面的监督训练。在DBN模型中,含有多个隐含层,每一个隐含层都是限制性玻尔兹曼RBM(一种具有特殊连接分布分神经网络)。DBN训练时,需要先对每两层见进行无监督的预训练,这个过程相当于一个多层的自编码器,可以将整个网络的权重初始化到一个理想的分布。最后通过反向传播算法调整模型权重,这个步骤会使用经过标注的信息来做监督性的分类训练,也解决了网络过深带来的梯度弥散问题。简单的说,hinton的思路是先用自编码器的方法进行无监督的预训练,提取特征并初始化权重,然后使用标注信息进行监督式的训练。
1
|
# 依然使用mnist数据集
|
1
|
#standard_scale对输入数据进行标准化处理
|
1
|
#获取数据集
|
Extracting MNIST_data/train-images-idx3-ubyte.gz
Extracting MNIST_data/train-labels-idx1-ubyte.gz
Extracting MNIST_data/t10k-images-idx3-ubyte.gz
Extracting MNIST_data/t10k-labels-idx1-ubyte.gz
Epoch: 0001 cost= 18799.158003409
Epoch: 0002 cost= 12072.621204545
Epoch: 0003 cost= 10246.132863636
Epoch: 0004 cost= 10029.809239205
Epoch: 0005 cost= 9912.949165341
Epoch: 0006 cost= 9418.074565341
Epoch: 0007 cost= 9859.652969318
Epoch: 0008 cost= 9497.867059659
Epoch: 0009 cost= 9283.955078409
Epoch: 0010 cost= 8127.477447727
Epoch: 0011 cost= 9125.452381818
Epoch: 0012 cost= 8159.187385227
Epoch: 0013 cost= 8330.580655682
Epoch: 0014 cost= 8220.359098295
Epoch: 0015 cost= 8393.369086932
Epoch: 0016 cost= 8835.428011932
Epoch: 0017 cost= 7937.553089205
Epoch: 0018 cost= 8520.666870455
Epoch: 0019 cost= 7843.604306818
Epoch: 0020 cost= 8403.237051705
Total cost: 643869.4
至此,去噪自编码器实现就全部完成了。
自编码器作为一种无监督学习的方法,它与其他无监督学习的主要不同是,它不是对数据进行聚类,而是提取其中最有用、最频繁出现的高阶特征,根据这些高阶特征重构数据。
为了拟合复杂的场景,需要隐含层,但是过深的神经网络会遇到过拟合、参数难以调试、梯度弥散等问题。对于这些问题我们徐亚哦很多的trick来解决。
过拟合是指在模型预测准确率在训练集上升高了,但是在测试集上却小江了,通常意味着泛化能力不好,模型只是记忆了当前数据的特征,不具备推广能力。
Hilton团队提出来一个dropout方法,它的大致思路是在训练时,将神将网络的某一层的输出节点数据随机丢弃一部分。dropout也算是一种bagging方法,可以理解为每次丢弃节点数据是对特征的一种采样。
参数难以调试是另外一个痛点,尤其是SGD参数。
梯度弥散,之前的sigmoid容易在层间传播误差,直到ReLU出现才比较完美解决了梯度弥散问题。ReLU是一个简单的非线性函数y=max(0,x)
ReLU相对于sigmoid主要变化有三个:
当然,深加工年网络的额输出层一般都还是sigmoid函数,因为它最接近概率输出分布。
说了那么多,隐含层到底有什么用呢。
隐含层代表性的功能是可以解决XOR问题。没有隐含层的神经网络是线性的,这是早期神经网络的致命缺陷,当引入了隐含层并使用了非线性的激活函数后我们可以使用曲线划分样本,解决XOR异或函数的分类问题。神经网络的隐含层越多,就可以对原有特征进行越抽象的变换,模型的拟合能力越强,这就是多层感知机MLP的功能所在。
加入隐含层
1
|
# Create the model
|
Extracting MNIST_data/train-images-idx3-ubyte.gz
Extracting MNIST_data/train-labels-idx1-ubyte.gz
Extracting MNIST_data/t10k-images-idx3-ubyte.gz
Extracting MNIST_data/t10k-labels-idx1-ubyte.gz
0.979
在测试集上可以达到大约98%的准确率,相当于第三章的92%提升了不少。
TensorFlow实战-TensorFlow实现自编码器及多层感知机-第4章
标签:none 引入 label correct and 推广 tor 失效 高斯
原文地址:https://www.cnblogs.com/LearnFromNow/p/9349633.html