标签:java 意图 运行 tin 指定 一半 order ide ica
前面做了如此漫长的铺垫,如今终于来到了课程的重点。
Convolutional Neural Networks。 简称CNN,与之前介绍的一般的神经网络相似,CNN相同是由能够学习的权值与偏移量构成。每个神经元接收一些输入。做点积运算加上偏移量,然后选择性的通过一些非线性函数。整个网络终于还是表示成一个可导的loss function,网络的起始端是输入图像。网络的终端是每一类的预測值,通过一个full connected层。最后这些预測值会表示成SVM或者Softmax的loss function,在一般神经网络里用到的技巧在CNN中都相同适用。
那么。CNN与普通的神经网络相比,又有哪些变化呢?CNN的网络结构能够直接处理图像。换句话说CNN的输入就是直接假设为图像。这一点有助于我们设计出具备某些特性的网络结构,同一时候前向传递函数能够更加高效地实现。并且将网络的參数大大降低。
前面介绍的普通的神经网络,我们知道该网络接收一个输入,通过一系列的隐含层进行变换,每个隐含层都是由一些神经元组成,每个神经元都会和前一层的全部神经元连接,这样的连接方式称为 full connected,每一层的神经元的激励函数都是相互独立,没有不论什么共享。
最后一个full connected层称为输出层。在分类问题中,它表示每一类的score。
一般来说,普通的神经网络不能很好地扩展到处理图像,特别是高维图像。由于神经元的连接是full connected的方式,导致一般的神经网络处理大图像的时候将会引入海量的參数,而这样很easy造成overfitting。
而CNN。利用了输入是图像这一事实,他们用一种更加明智的方法来设计网络结构,详细说来,不像普通的神经网络,CNN中的每一层的神经元被排列成一个三维模型:拥有width。height以及depth。这里的depth指的是CNN每一层的纵深。并不是指整个CNN结构的纵深。比方,对于CIFAR-10数据库来说,输入是一个三维的volume。32
上图左边是一般的神经网络,这个网络有两个隐含层。右边是CNN,将每一层的神经元排列成一个三维的volume。能够将3D的输入volume转化为3D的输出volume.
上一节已经提到,CNN的每一层都将某种输入通过某些可导函数转化为还有一种输出,一般来说,我们主要利用三种类型的layer去构建一个CNN,这三种类型的layer各自是convolutional layer, pooling layer 以及full connected layer,这三种类型的layer通过组合叠加从而组成一个完整的CNN网络。我们先来看一个简单的样例,以CIFAR-10数据库为例,我们要设计一个CNN网络对CIFRA-10进行分类,那么一个可能的简单结构是:[INPUT-CONV-RELU-POOL-FC],当中:
INPUT:[32
CONV: 是卷积层,计算输入层的局部神经元与连接到CONV层神经元的连接系数的点积。假设假设depth是12的话,那么可能的输出就是[32
POOL: 这一层主要运行降採样的功能,可能的输出为[16
FC: 这一层计算终于的每一类的score。输出为[1
与普通的神经网络一样,这一层的神经元与上一层的全部神经元都会连接。
所以,利用这样的结构,CNN通过一层一层的传递作用。将原始的图像最后映射到每一类的score。我们能够看到。有些层有參数,有些层没有參数。特别地,CONV/FC层不仅仅仅仅是通过激励函数做转化,并且參数(权值,偏移量)也起到很关键的数据,还有一方面,POOL/RELU 层仅仅是固定的函数在起作用,并没有涉及到參数,CONV/FC层的參数将通过梯度下降的方法训练得到,使得训练样本的预測值与目标值吻合。
下图给出了一个典型的CNN结构。
总之。CNN能够总结例如以下:
1):一个CNN结构是由一系列的运行不同转化功能的layers组成的,将输入的原始图像映射到最后的score。
2):整个网络结构,仅仅有少数几类不同功能的layer (CONV/FC/RELU/POOL 是眼下比較流行的几种)。
3):每一层都接收一个3-D的数据体,最后也会输出一个3-D的数据体。
4):有些层有參数(CONV/FC),有些层没有(RELU/POOL)。
5):有些层还可能有hyperparameters(CONV/POOL/FC)。有些层则没有(RELU)。
接下来,我们要描写叙述每一类layer的作用。以及相关的參数。
Conv layer是CNN网络的核心部件。它的输出能够看成是一个3-D的数据体,CONV 层包括一系列可学的filters,这些filter的尺寸都很小,可是能够扩展到input的整个depth,前向传递的时候,filter在输入图像上滑动,产生一个2-D的关于filter的激励映射,filter仅仅会和局部的一些像素(神经元)做点积。所以每个输出的神经元能够看成是对输入层的局部神经元的激励,我们希望这些filter通过训练,能够提取某些实用的局部信息。
我们接下来探讨到更加详细的细节。
当输入是高维的变量,比方图像等,假设採用full connected的连接是不切实际的。相反,我们会採用局部连接的方式,那么每个局部区域我们称为receptive field,这样的局部连接是针对输入层的宽,高这两个维度来说,可是对于第三个维度depth来说,依旧是要全然连接,所以我们处理局部空间在宽。高维度与depth这个维度是不一样的。
宽,高维度上,我们採取局部连接,可是对于depth维度。我们採用全连方式。
比方。假设一个输入图像的尺寸是[32
再比方,假设如今有一个输入的数据体是16
这两个样例都说明了。在宽,高维度我们採用局部连接的方式,而在depth维度,我们会全部连接。以下给出了一个简单的示意图:
前面我们介绍了CONV层的神经元与前一层的连接方式。可是CONV层本身的神经元怎样排列,并且其尺寸怎样,我们还没有讨论。其实,CONV层本身的神经元怎样排列以及CONV层的尺寸由三个因素决定:depth。stride。zero padding。
首先,depth决定了CONV层中有多少神经元能够与前一层相同的神经元相连,这个相似普通的神经网络,在普通的神经网络中,我们知道每个神经元都与上一层的全部神经元相连。全部每一层的全部神经元都是与上一层相同的神经元相连。我们将会看到。全部这些神经元将通过学习从而对输入的不同特征产生应激作用,比方,假设第一个CONV层接收的是原始输入图像。那么沿着depth维度排列的神经元(注意:这些神经元连接的输入层的神经元都相同)可能对不同的特性(比方边界,颜色,斑块)等产生激励。我们将这些连接到输入层同一区域的神经元称为一个depth volume。
接下来,我们必须指定stride,这个决定了我们怎样在CONV层排列depth volume,假设我们指定stride为1,那么depth volume的排列将会很紧凑,意味着隔一个神经元就会有一个depth volume。这样会产生比較大的重叠。并且输出的尺寸也会很大,假设我们增大stride,能够降低重叠。并且能够降低输出的尺寸。
zero padding就是为了控制输出的尺寸。对输入图像的边缘进行补零操作。由于卷积可能使输出图像的尺寸降低,有的时候为了得到与输入一样的尺寸,我们能够在做卷积之前先对输入图像的边缘补零,即先增大输入图像的尺寸,这样能够使得终于的卷积结果与补零前的输入图像的尺寸一致。
我们能够看到,输出层有一个depth。一个spatial size,depth能够指定,spatial size与输入层的size(
我们能够看一个样例。假设输入图像的尺寸为[227
继续看上面的样例,我们知道CONV层有55
我们能够利用一个合理的假设来大大系数的数量。我们将CONV层看成一个depth volume。比方上面这个样例,CONV层是一个55
假设每个slice里的神经元都共享相同的连接系数。那么实际运算的时候能够利用卷积运算。其实这也是这个网络名称的由来,卷积在当中发挥关键的数据,全部我们有的时候把这些系数称为filter或者kernel。卷积的结果就是activation map,每个activation map叠加,最后形成一个55
总结一下CONV的特点:
接收一个尺寸为
定义一些相关的hyperparameter,比方filter的个数
尺寸为:
会有一个
CONV层的backpropagation 相同是卷积运算,这个详细的细节留到后面详细探讨。
一般来说。在两个CONV layer之间,会插入一共pooling layer。pooling layer的作用一个是降低输入的空间尺寸,从而能够降低參数的数量及运算量。同一时候也能够控制overfitting。
Pooling layer与上一层的每个slice是一一相应的,没有相互交叉。最常见的pooling 运算是採用max 操作。在
接收一个尺寸为
max pooling 的backpropagation。简单来说就是仅仅对输入的最大值进行梯度运算,所以每次前向运算的时候,最好能够将最大值的位置记录下来,这样每次backward的时候就能够方便运算。
FC layer就像普通神经网络里的隐含层一样,FC layer中的每个神经元与上一层全部的神经元都会连接(full connected),涉及到的运算也和普通的神经网络一样。值得注意的一点是,FC与CONV layer之间的差别仅在于CONV layer里的神经元仅仅和上一层的局部神经元相连。可是两者的运算模式是一样的。都是做点积。因此在FC与CONV之间存在相互转换的可能。
对于CONV layer。假设我们从FC的角度来看。相当于乘了一个很大的稀疏矩阵(大部分系数为0。由于仅仅有局部神经元的连接是有效的),并且这些非0系数在某些block中是相等的(系数共享)。
反过来,不论什么FC layer也能够有效地转换成CONV layer。比方一个神经元个数K=4096的FC layer。接收的输入是7
上面所说的两种转换,当中FC 转换为CONV 在实际运算中很实用,考虑一个实际的CNN网络。最原始的输入为224
将第一个FC layer替换成CONV layer,其filter size 为7,我们能够得到1
相同。最后一个FC layer用filter size为1的CONV layer替换,最后的输出为1
上面所说的每个转换都涉及到系数矩阵的reshape问题。这样的转换能够让我们将CNN结构很有效的在更大的图像上滑动。比方,假设一个224
我们能够看到,假设图像保持不动,而CNN网络每次以32个像素的stride在图像上移动,最后得到的结果是一样的。
一般来说,利用CNN网络做一次遍历。得到一个6
这样的实际应用中,是一种提高分类性能的技巧,比方我们将一幅图先放大,然后再利用CNN结构做遍历,最后将全部得到的score求平均。
最后一点,假设我们想将CNN网络以小于32的stride有效地应用在图像上,能够通过多次前向传递运算达到目的。比方,我们想以16个像素的stride遍历图像。能够做两次运算,第一次是直接将CNN网络在原图上做遍历。第二次,先将原图在宽,高方向分别平移16个像素。然后在平移后的图像上做遍历。
我们已经看到,CNN网络一般仅仅有几种类型的layer:CONV。POOL(一般默觉得max pooling)以及FC,一般我们也会把RELU单独列为一层,用来运行非线性运算的操作,我们看看这些layer怎样构建一个完整的CNN网络。
比較常见的模式是先叠加几层CONV-RELU layer,后面连上POOL layer。这样将输入的图像逐渐降低到一个比較小的尺寸,接来下。就连上Full connected layer。最后的FC layer是输出。所以一般比較常见的模式例如以下所看到的:
INPUT -> [[CONV -> RELU]*N -> POOL?
]*M -> [FC -> RELU]*K -> FC
当中*表示反复叠加的意思。而POOL?表示这是可选择的,并且N>=0,一般N<=3,M>=0,K>=0,通常K<=3,以下是一些常见的CNN网络结构。
INPUT -> FC,这是最普通的线性分类器。N = M = K = 0.
INPUT -> CONV -> RELU -> FC
INPUT -> [CONV -> RELU -> POOL]*2 -> FC -> RELU -> FC 我们看到CONV layer后面连着Pool layer。
INPUT -> [CONV -> RELU -> CONV -> RELU -> POOL]*3 -> [FC -> RELU]*2 -> FC 我们看到在连接POOL layer之前,已经有两个CONV layer叠加到一起了。
一般我们会选择小尺寸的filter,这在实际应用中的效果会更好。一般来说。输入图像的尺寸最好是2的幂次方,比方32,64,96,224,384以及512。CONV 层一般用比較小的filter,比方
如今流行的CNN网络结构都是很庞大的。比較著名的CNN结构有例如以下几个LeNet, AlexNet, ZF Net, Google Net, VGGNet,详细的介绍能够參考课程站点。这里不再详述。
声明:lecture notes里的图片都来源于该课程的站点,仅仅能用于学习,请勿作其他用途。如需转载。请说明该课程为引用来源。
Convolutional Neural Networks for Visual Recognition 8
标签:java 意图 运行 tin 指定 一半 order ide ica
原文地址:http://www.cnblogs.com/cxchanpin/p/7078881.html