说明
本文是”Local Receptive Fields Based Extreme Learning Machine“的学习笔记。
文章主要包括两部分内容,极速学习机(也有人译作极限学习机或极端学习机,Extreme Learning Machine,ELM)和局部感受野(Local Receptive Fields。LRF)。
极速学习机( 也有人译作极限学习机或极端学习机。Extreme Learning Machine。ELM )实际上是一种单隐层前馈神经网络(Single-hidden Layer Feedforward Neural networks,SLFNs),由南洋理工大学黄广斌教授于2004年提出,请參见主页。 ELM可用于特征学习(feature learning)。聚类(clustering)。回归(regression)和分类(classification)。
基于局部感受野的极速学习机
摘要内容
- 传统观点:神经网络的隐藏层神经元须要在训练阶段迭代调整。
- ELM理论打破了这种信条。觉得隐层神经元虽然非常重要。但不须要迭代调整。 隐藏层节点的全部參数(权重W和偏置b)都独立于训练例子,能够随机的(随意连续概率分布)生成,这种ELM依旧具有普适的逼近和分类能力( universal approximation and classification )。
文章提出了一种局部连接的ELM的普适结构。
1。 在输入层引入局部感受野;
2。
每一个隐层节点能够是几个隐层节点(子网络。sub-network)的组合。
在NORB数据集上,与传统的深度神经网络作了对照:
- 将错误率从6.5%降到2.7%
- 学习速度快了200倍
引言部分
文中提到。机器学习的成功依赖于三个关键因素:
- 强大的计算环境(powerful computing environments)
- 丰富的动态数据(rich and dynamic data)
- 有效的学习算法(efficient learning algorithms)
传统的诸如BP的训练方法的缺点:
- 大量的梯度下降搜索操作
- 慢的收敛速度
- easy陷入局部最优
- 密集的人工干预
ELM克服了这些缺点和限制,不仅训练时间急剧降低,学习的精度也非常高。
基于局部感受野的极速学习机( Local Receptive Fields Based Extreme Learning Machine。ELM-LRF )和卷积神经网络(Convolutional Neural Networks。CNNs)在局部连接上类似,但有两点不同:
- 局部感受野: ELM-LRF能够灵活的使用由连续概率分布随机生成的不同形式的局部感受野; 而CNN使用固定的卷积隐层节点作为局部感受野。
- 训练: CNN使用BP算法; 而ELM-LRF的输入权重和偏置能够随机生成。从而输出权重能够解析地计算。
回想ELM,CNN和HTM
极速学习机(ELM)
ELM理论 表明,仅仅要隐层神经元的激活函数是非线性分段连续(nonlinear piecewise continues)的,神经网络就不须要通过迭代调整网络来获得学习能力。
如上图所看到的,ELM包括两步: 特征映射和特征学习。
ELM特征映射(feature mapping)
ELM的输出函数(output function):
f(x)=∑i=1Lβihi(x)=h(x)β(1)
当中,
βL×m=[β1,?,βL]T,(βi=[βi1,?,βim]T)是隐层与输出层间的输出权重矩阵。
h(x)=[h1(x),?,hL(x)]是隐层的输出向量。
hi(x)=G(ai,bi,x),ai∈Rd,bi∈R(2)
当中。
G(ai,bi,x)是一个非线性分段连续函数。
h(x)实际上是将d维的输入空间映射到L维的隐层随机特征空间。所以h(x)是一个随机特征映射。
ELM特征学习(Learning)
ELM与传统的学习算法不同。隐层神经元无需调整,并且能够得到最小化训练误差和具有最小范数的解:
Minimize:||β||σ1p+C||Hβ?T||σ2q(3)
当中,
σ1>0,σ2>0,p,q>0,
C用于控制两项的重要性。
对于给定的训练集(xi,ti),i=1,2,?,N,用H表示隐藏层输出矩阵:
H=????h(x1)?h(xN)????=????h1(x1)?h1(xN)???hL(x1)?hL(xN)????(4)
T是训练例子的目标矩阵(target matrix,由类标构成):
T=????tT1?tTN????=????t11?tN1???t1m?tNm????(5)
有非常多种方法能够计算权重β。如正交投影的方法、迭代的方法、和神秘值分解等等。
当σ1=σ2=p=q=2时。经常使用的闭式解(closed-form)为:
β={HT(IC+HHT)?1T,(IC+HTH)?1HTT,if N≤Lif N≥L(6)
定理1:普适近似能力:设激活函数为随意非常数分段连续函数(nonconstant piecewise continuous function),假设通过调整隐层神经元的參数能够使SLFNs近似随意目标函数f(x),那么能够依照随意连续概率分布函数随机生成序列{hi(x)}Li=1,能够找到适当的β。使得极限limL→∞||βihi(x)?f(x)||=0依概率收敛于1。
定理2:分类能力:设激活函数为随意非常数分段连续函数,假设通过调整隐层神经元的參数能够使SLFNs近似随意目标函数f(x),那么带有随机映射h(x)的SLFNs能够分离不论什么形状的随意不相交(disjoint)区域。
卷积神经网络(CNN)
卷积神经网络(Convolutional Neural Network。CNN)是多层前馈神经网络(Multi-Layer Feedforward Neural Network,也叫多层感知器,MLPs)的变种。
CNN受启示与人类的视觉皮层,输入至隐藏层採用局部连接。
这是全连接神经网络和局部连接神经网络示意图:
这是局部连接神经网络与卷积神经网络示意图:
下图是卷积神经网络结构示意图:
CNN包括两个基本操作:卷积(convolution)和池化(pooling)。通常交替排列卷积层和池化层直至获得高级的特征。
上图中的“Subsampling”事实上就是池化操作。
卷积神经网络特点
- 局部连接(网络參数数目减小)
- 权值共享
- 採用BP训练(包括BP的弊病)
- 运算量大
卷积
对于一个卷积层。用γ表示该卷积层的值,用x表示其前一层的值,假设该卷积层前一层的大小是d×d,感受野(receptive field)的大小是r×r,则
γi,j=g(∑m=1r∑n=1rxi+m?1, j+n?1?wm, n+b),i,j=1,?,(d?r+1)(7)
池化
为降低特征的维数并引入平移不变性,在局部区域引入池化操作,通常有平均池化和最大池化。
- 平均池化使得提取的特征对微小变形鲁棒,与视觉感知中的复杂细胞功能类似。
- 最大池化使得提取的特征具有平移不变性。
- 池化区域一般是不重叠的。
层级实时记忆(HTM)
层级实时记忆 (Hierarchical Temporal Memory,HTM) 是一个在线式机器学习模型 (an online machine learning model) ,它能发现和判断出观測输入模式或序列的高层次原因。
HTM组合和扩展了贝叶斯网络、空时聚类算法中的方法,同一时候利用了神经网络中经常使用的节点的树形层次结构。
基于局部感受野的极速学习机(ELM-LRF)
- 输入与隐藏层间的连接是稀疏的。且由相应的局部感受野(对连续概率分布採样得到)包围。
- 组合节点:通过把几个隐藏层节点组合在一起。引入平移不变性。(translational invariance)。
A. 全连接与局部连接(Full and Local Connections)
ELM理论证明,隐藏层节点能够依照随意概率分布生成。这里的随机是指:
- 输入与隐藏层节点间的连接密度是依据不同类型的概率分布随机採样得到的。
- 输入与隐藏层节点间的连接权重也是随机生成的。
例如以下图所看到的,(a)图为隐藏层节点全连接的形式。相关的应用研究非常多,且ELM在诸如遥感、时间序列分析、文本分类、行为识别等应用领域取得了最高水平的性能。
然而,上面的工作仅关注于权重的随机,忽略了连接也能够随机的属性。
自然图像和语言的强的局部关系,使得全连接非常不适合。
B. 基于局部感受野的ELM
如上图中(b)图所看到的,输入层与一个隐藏层节点i间的连接是依据连续概率分布随机生成的,这种随机的连接也就构成了局部感受野。
当ELM-LRF应用于图像处理等类似任务时,它学习图像的局部结构并在隐藏层生成更为有意义的表示。
C. 组合节点
ELM理论表明。ELM中的一个隐层节点能够是几个隐层节点的组合。或者是节点构成的子网络。
例如以下图7所看到的。组合节点i由一个子网络形成。这个子网络的输出实际上是相应于3个局部感受野的3个隐藏层节点的和。
实际上,组合节点完毕了池化的功能:
- 在一个节点生成的特征在不同的节点也实用。
- ELM-LRF网络具有平移和旋转不变性。
- 输入与组合节点间的连接能更好的学习局部特征。
局部感受野的实现
A. ELM-LRF的特殊组合节点
虽然ELM中能够使用各种不同的局部感受野和组合节点。为了方便实现,文章中採用特殊的局部感受野和组合节点例如以下图:
- 採样分布:採用简单的阶梯概率函数(Simple Step Probability Function);
- 组合节点:平方根池化(square/square-root pooling)结构;
- 局部感受野:每一个隐层节点的局部感受野由距中心一定距离内的输入节点组成。
- 卷积操作:对于不同隐藏层节点,共享输入权重实现卷积操作。
B. 随机输入权重
为了获得输入的充分表示(thorough representations),採用K个不同的输入权重,从而得到K个互异的特征图。
例如以下图9所看到的:
当中,
- 隐藏层由随机卷积节点组成。
- 同一特征图(Feature Map)共享同一输入权重,不同特征图输入权重不同。
- 输入权重随机生成并正交化,正交化的输入权重能够提取更为完备的特征。
输入权重的生成与正交化操作:
- 随机生成初始权重A^init。设输入大小为d×d,感受野大小为r×r,那么特征图的大小为(d?r+1)×(d?r+1)。注:文章採用标准高斯分布,且不包括偏置,由于它不须要。
A^init∈Rr2×K, A^init=[a^init1,a^init2,?,a^initK]a^initk∈Rr2, k=1,?,K(8)
- 正交化初始权重A^init。採用神秘值分解(SVD)正交化。正交化的初始权重记为A^,它的每一列a^k都是A^init的正交基。注意。当r2<K时,先转置,再正交化,然后转置回来。
第k个特征图的输入权重是ak∈Rr×r,由a^k逐列排成。第k个特征图的卷积节点(i,j)的值ci,j,k由下式计算:
ci,j,k(x)=∑m=1r∑n=1r(xi+m?1, j+n?1?am,n,k), i,j=1,?,(d?r+1)(9)
C. 平方根池化(square/square-root pooling)结构
池化大小e表示池化中心到边的距离,且池化图(pooling map)与特征图大小同样((d?r+1)×(d?r+1))。ci,j,k和hp,q,k。分别表示第k个特征图中的节点(i,j)和第k个池化图中的组合节点(p,q)。
hp,q,k=∑i=p?ep+e∑j=q?eq+ec2i,j,k?????????????,p,q=1,?,(d?r+1)if (i,j) is out of bound, then ci,j,k=0.(10)
- 平方与求和操作:网络引入非线性校正(rectification nonlinearity)和平移不变性(translation invariance)的特性;
- 卷积操作后紧跟平方/平方根池化结构:使网络具有频率选择性(frequency selective)和平移不变性(translation invariance)。
- 因而非常适合于图像处理。
D. 基于输出权重的闭式解
池化层与输出层全连接,输出权重β,採用正则化最小二乘(Regularized Least-Squares)法解析地计算。
对于每一个输入例子x,使用式(9)计算特征图的值,然后使用式(10)计算池化图(即组合层)的值。
简单地连接全部组合节点的值形成一个行向量,并把N个输入例子的行向量放在一起。得到组合层矩阵H∈RN×K?(d?r+1)2,输出权重矩阵通过下式(式11和12)计算:
if N≤K?(d?r+1)2
β=HT(IC+HHT)?1T(11)
if N>K?(d?r+1)2
β=(IC+HHT)?1HTT(12)
讨论
A. 普适近似和分类能力
- 输入与隐藏层节点间的连接,是依据不同类型的连续概率分布随机採样构建的,这种网络依旧具有普适近似能力和分类能力。
- 输入与隐藏层节点间没有连接的。能够觉得连接权重不重要以至于能够忽略。因而仍然能够觉得分布函数是连续的,能够保持网络的普适近似与分类能力。
- ELM中的隐藏层节点能够是不同节点的线性或非线性组合。
由于隐藏层节点的激活函数是非线性分段连续的,所以第k个池化图hp,q,k中的组合节点(p,q),仍然能够表示成ELM隐层节点的基本形式:
hp,q,k=G(ap,q,bp,q,x), p,q=1,?,(d?r+1)
在平方根池化结构中。G显然是非线性分段连续的。所以ELM-LRF仍然保留了普适近似与分类能力,从而能够学习输入数据更为复杂的特征。
B. ELM-LRF与HTM和CNN的关系
- ELM-LRF与HTM:在通过构造一层一层的学习模式,来模拟大脑处理逐渐复杂的输入形式上是类似的。然而,ELM-LRF更为有效,由于ELM-LRF网络的连接和输入权重都是随机生成的,而HTM须要细致设计网络和调整參数。
- ELM-LRF与CNN:它们都直接处理原始输入,并利用局部连接来限制网络学习诸如自然图像和语言中的空间相关性。它们的不同是:
- 局部感受野:ELM-LRF更为灵活和宽泛,能够依据不同类型的概率分布随机採样生成,而CNN仅仅使用卷积隐藏层节点;虽然本文仅使用随机卷积节点作为ELM-LRF的特殊的局部感受野,研究其他类型的感受野也是非常有价值的。
- 训练:CNN中的隐藏层节点须要调整,而通常採用BP算法。这使得CNN面临BP中的琐碎问题,如:局部最优,慢的收敛速度。
而ELM-LRF随机生成输入权重并解析地计算输出权重。也就是计算主要是输出权重的计算。从而ELM-LRF更为高效。
实验
实验数据
ELM-LRF与Deep Learning的方法进行了对照,数据集选择目标识别数据集:NORB。NORB包括24300幅训练用立体图像(stereo image)和24300幅測试用立体图像,每一个都有5类并且非常多都进行了3D和光照处理。下图是NORB数据集中的60个例子,每一个样本有两幅图,物体尺寸是归一化的,背景也是一致的。
文中进行了下採样到32×32的操作。
实验平台与參数
实验平台:MATLAB2013a。Intel Xeon E5-2650,2GHz GPU,256GB RAM。
參数:感受野大小{4×4,6×6};特征图的数量{24,36,48,60}。池化大小1,2,3,4;C 的值{0.01,0.1,1,10,100},採用5倍交叉验证,来选择參数,结果例如以下表1:
表1 最优參数
DATASET |
# OF TRAINING DATA |
# OF TESTING DATA |
INPUT DIMENSIONS |
RECEPTIVE FIELD |
# OF FEATURE MAPS |
POOLING SIZE |
C |
NORB |
24300 |
24300 |
32×32×2 |
4×4 |
48 |
3 |
0.01 |
A. 測试误差
如表2所看到的,ELM-LRF要比其他微调的算法的精度更高,并且耗时少。
与CNN和DBN的方法相比。ELM-LRF将错误率从6.5%降到2.74%。
表2 不同算法的測试误差
ALGORITHMS |
TEST ERROR RATES |
ELM-LRF |
2.74% |
ELM-LRF (NO ORTHOGONALIZATION) |
4.01% |
RANDOM WEIGHTS (ELM FEATURE MAPPING + SVM CLASSIFIER) |
4.8% |
K-MEANS + SOFT ACTIVATION |
2.8% |
TILED CNN |
3.9% |
CNN |
6.6% |
DBN |
6.5% |
B. 训练时间
公平起见,其他的算法也执行在本实验平台。如表3所看到的,ELM-LRF学习速度比其他算法快至200倍。
表3 训练时间对照
ALGORITHMS |
TRAINING TIM(s) |
SPEEDUP TIMES |
ELM-LRF |
394.16 |
217.47 |
ELM-LRF (NO ORTHOGONALIZATION) |
391.89 |
218.73 |
RANDOM WEIGHTS (ELM FEATURE MAPPING + SVM CLASSIFIER) |
1764.28 |
48.58 |
K-MEANS + SOFT ACTIVATION |
6920.47 |
12.39 |
TILED CNN |
15104.55 |
5.67 |
CNN5 |
53378.16 |
1.61 |
DBN |
85717.14 |
1 |
C. 特征图
下图显示了一个样本的48个特征图。能够看出,这些特征图的轮廓线类似的,这是由于它们来自同一幅输入图像。然而每一个图都有自己明显突出的部分,这就获得了原始图像的互异表示,就原始图像的不同抽象。使得分类变得easy和准确。
D. 随机输入权重的正交化
实验。也分析了随机输入权重的正交化的贡献。以48个特征图中的卷积节点中心的值为例。下图显示了48个特征图中,中心卷积节点的值在对输入权重正交化前后的变化分布。
能够看出,正交的随机权重的分布更均匀。特征图中的其他位置的卷积节点也是如此。所以正交化使得物体更加线性独立和易分类的。
然而。即使不正交化。仍能获得4.01%的測试误差与传统方法相比,降低了38%。
结论
- ELM中引入局部感受野来学习局部结构;
- 组合节点的引入使网络具有平移不变性;
- 输入权重随机生成,然后进行正交化,这样能够提取更为完备的特征;
- 输出权重能够解析地计算。计算复杂度低;
- 局部感受野的形式多样。
- 随机卷积节点能够作为ELM的一个有效的局部感受野实现方法。
- 实验表明。不管在精度上还是学习速度上,ELM-LRF都远优于传统的深度学习方法。
进一步的工作:
- ELM的不同类型的局部感受野的影响。
- ELM的不同卷积节点的影响;
- 堆栈式ELM-LRF,能够通过在前一组合层后採用局部连接来堆叠ELM-LRF。
代码实现
未提供源代码,本人尚在实现中!!!
參考文献