说明
本文是”Local Receptive Fields Based Extreme Learning Machine“的学习笔记。
文章主要包含两部分内容,极速学习机(也有人译作极限学习机或极端学习机,Extreme Learning Machine,ELM)和局部感受野(Local Receptive Fields,LRF)。
极速学习机( 也有人译作极限学习机或极端学习机,Extreme Learning Machine,ELM )实际上是一种单隐层前馈神经网络(Single-hidden Layer Feedforward Neural networks,SLFNs),由南洋理工大学黄广斌教授于2004年提出,请参见主页。 ELM可用于特征学习(feature learning),聚类(clustering),回归(regression)和分类(classification)。
基于局部感受野的极速学习机
摘要内容
- 传统观点:神经网络的隐藏层神经元需要在训练阶段迭代调整。
- ELM理论打破了这种信条,认为隐层神经元虽然很重要,但不需要迭代调整。 隐藏层节点的所有参数(权重W和偏置b)都独立于训练样例,可以随机的(任意连续概率分布)生成,这样的ELM依然具有普适的逼近和分类能力( universal approximation and classification )。
文章提出了一种局部连接的ELM的普适结构。
1。 在输入层引入局部感受野;
2。 每个隐层节点可以是几个隐层节点(子网络,sub-network)的组合。
在NORB数据集上,与传统的深度神经网络作了对比:
- 将错误率从6.5%降到2.7%
- 学习速度快了200倍
引言部分
文中提到,机器学习的成功依赖于三个关键因素:
- 强大的计算环境(powerful computing environments)
- 丰富的动态数据(rich and dynamic data)
- 有效的学习算法(efficient learning algorithms)
传统的诸如BP的训练方法的缺点:
- 大量的梯度下降搜索操作
- 慢的收敛速度
- 容易陷入局部最优
- 密集的人工干预
ELM克服了这些缺点和限制,不仅训练时间急剧减少,学习的精度也非常高。
基于局部感受野的极速学习机( Local Receptive Fields Based Extreme Learning Machine,ELM-LRF )和卷积神经网络(Convolutional Neural Networks,CNNs)在局部连接上相似,但有两点不同:
- 局部感受野: ELM-LRF可以灵活的使用由连续概率分布随机生成的不同形式的局部感受野; 而CNN使用固定的卷积隐层节点作为局部感受野。
- 训练: CNN使用BP算法; 而ELM-LRF的输入权重和偏置可以随机生成,从而输出权重可以解析地计算。
回顾ELM,CNN和HTM
极速学习机(ELM)
ELM理论 表明,只要隐层神经元的激活函数是非线性分段连续(nonlinear piecewise continues)的,神经网络就不需要通过迭代调整网络来获得学习能力。
如上图所示,ELM包含两步: 特征映射和特征学习。
ELM特征映射(feature mapping)
ELM的输出函数(output function):
f(x)=∑i=1Lβihi(x)=h(x)β(1)
其中,
βL×m=[β1,?,βL]T,(βi=[βi1,?,βim]T)是隐层与输出层间的输出权重矩阵,
h(x)=[h1(x),?,hL(x)]是隐层的输出向量。
hi(x)=G(ai,bi,x),ai∈Rd,bi∈R(2)
其中,
G(ai,bi,x)是一个非线性分段连续函数。
h(x)实际上是将d维的输入空间映射到L维的隐层随机特征空间,所以h(x)是一个随机特征映射。
ELM特征学习(Learning)
ELM与传统的学习算法不同,隐层神经元无需调整,而且可以得到最小化训练误差和具有最小范数的解:
Minimize:||β||σ1p+C||Hβ?T||σ2q(3)
其中,
σ1>0,σ2>0,p,q>0,
C用于控制两项的重要性。
对于给定的训练集(xi,ti),i=1,2,?,N,用H表示隐藏层输出矩阵:
H=????h(x1)?h(xN)????=????h1(x1)?h1(xN)???hL(x1)?hL(xN)????(4)
T是训练样例的目标矩阵(target matrix,由类标构成):
T=????tT1?tTN????=????t11?tN1???t1m?tNm????(5)
有很多种方法可以计算权重β,如正交投影的方法、迭代的方法、和奇异值分解等等。
当σ1=σ2=p=q=2时,常用的闭式解(closed-form)为:
β={HT(IC+HHT)?1T,(IC+HTH)?1HTT,if N≤Lif N≥L(6)
定理1:普适近似能力:设激活函数为任意非常数分段连续函数(nonconstant piecewise continuous function),如果通过调整隐层神经元的参数可以使SLFNs近似任意目标函数f(x),那么可以按照任意连续概率分布函数随机生成序列{hi(x)}Li=1,能够找到适当的β,使得极限limL→∞||βihi(x)?f(x)||=0依概率收敛于1。
定理2:分类能力:设激活函数为任意非常数分段连续函数,如果通过调整隐层神经元的参数可以使SLFNs近似任意目标函数f(x),那么带有随机映射h(x)的SLFNs可以分离任何形状的任意不相交(disjoint)区域。
卷积神经网络(CNN)
卷积神经网络(Convolutional Neural Network,CNN)是多层前馈神经网络(Multi-Layer Feedforward Neural Network,也叫多层感知器,MLPs)的变种。
CNN受启发与人类的视觉皮层,输入至隐藏层采用局部连接。
这是全连接神经网络和局部连接神经网络示意图:
这是局部连接神经网络与卷积神经网络示意图:
下图是卷积神经网络结构示意图:
CNN包含两个基本操作:卷积(convolution)和池化(pooling),通常交替排列卷积层和池化层直至获得高级的特征。上图中的“Subsampling”其实就是池化操作。
卷积神经网络特点
- 局部连接(网络参数数目减小)
- 权值共享
- 采用BP训练(包含BP的弊病)
- 运算量大
卷积
对于一个卷积层,用γ表示该卷积层的值,用x表示其前一层的值,假设该卷积层前一层的大小是d×d,感受野(receptive field)的大小是r×r,则
γi,j=g(∑m=1r∑n=1rxi+m?1, j+n?1?wm, n+b),i,j=1,?,(d?r+1)(7)
池化
为减少特征的维数并引入平移不变性,在局部区域引入池化操作,通常有平均池化和最大池化。
- 平均池化使得提取的特征对微小变形鲁棒,与视觉感知中的复杂细胞功能类似。
- 最大池化使得提取的特征具有平移不变性。
- 池化区域通常是不重叠的。
层级实时记忆(HTM)
层级实时记忆 (Hierarchical Temporal Memory,HTM) 是一个在线式机器学习模型 (an online machine learning model) ,它能发现和推断出观测输入模式或序列的高层次原因。
HTM组合和扩展了贝叶斯网络、空时聚类算法中的方法,同时利用了神经网络中常用的节点的树形层次结构。
基于局部感受野的极速学习机(ELM-LRF)
- 输入与隐藏层间的连接是稀疏的,且由相应的局部感受野(对连续概率分布采样得到)包围。
- 组合节点:通过把几个隐藏层节点组合在一起,引入平移不变性。(translational invariance)。
A. 全连接与局部连接(Full and Local Connections)
ELM理论证明,隐藏层节点可以按照任意概率分布生成,这里的随机是指:
- 输入与隐藏层节点间的连接密度是根据不同类型的概率分布随机采样得到的。
- 输入与隐藏层节点间的连接权重也是随机生成的。
如下图所示,(a)图为隐藏层节点全连接的形式,相关的应用研究很多,且ELM在诸如遥感、时间序列分析、文本分类、行为识别等应用领域取得了最高水平的性能。
然而,上面的工作仅关注于权重的随机,忽略了连接也可以随机的属性。自然图像和语言的强的局部关系,使得全连接很不适合。
B. 基于局部感受野的ELM
如上图中(b)图所示,输入层与一个隐藏层节点i间的连接是根据连续概率分布随机生成的,这种随机的连接也就构成了局部感受野。
当ELM-LRF应用于图像处理等相似任务时,它学习图像的局部结构并在隐藏层生成更为有意义的表示。
C. 组合节点
ELM理论表明,ELM中的一个隐层节点可以是几个隐层节点的组合,或者是节点构成的子网络。如下图7所示,组合节点i由一个子网络形成,这个子网络的输出实际上是对应于3个局部感受野的3个隐藏层节点的和。
实际上,组合节点完成了池化的功能:
- 在一个节点生成的特征在不同的节点也有用。
- ELM-LRF网络具有平移和旋转不变性。
- 输入与组合节点间的连接能更好的学习局部特征。
局部感受野的实现
A. ELM-LRF的特殊组合节点
尽管ELM中可以使用各种不同的局部感受野和组合节点,为了方便实现,文章中采用特殊的局部感受野和组合节点如下图:
- 采样分布:采用简单的阶梯概率函数(Simple Step Probability Function);
- 组合节点:平方根池化(square/square-root pooling)结构;
- 局部感受野:每个隐层节点的局部感受野由距中心一定距离内的输入节点组成;
- 卷积操作:对于不同隐藏层节点,共享输入权重实现卷积操作。
B. 随机输入权重
为了获得输入的充分表示(thorough representations),采用K个不同的输入权重,从而得到K个互异的特征图。如下图9所示:
其中,
- 隐藏层由随机卷积节点组成;
- 同一特征图(Feature Map)共享同一输入权重,不同特征图输入权重不同;
- 输入权重随机生成并正交化,正交化的输入权重可以提取更为完备的特征。
输入权重的生成与正交化操作:
- 随机生成初始权重A^init。设输入大小为d×d,感受野大小为r×r,那么特征图的大小为(d?r+1)×(d?r+1)。注:文章采用标准高斯分布,且不包含偏置,因为它不需要。
A^init∈Rr2×K, A^init=[a^init1,a^init2,?,a^initK]a^initk∈Rr2, k=1,?,K(8)
- 正交化初始权重A^init。采用奇异值分解(SVD)正交化,正交化的初始权重记为A^,它的每一列a^k都是A^init的正交基。注意,当r2<K时,先转置,再正交化,然后转置回来。
第k个特征图的输入权重是ak∈Rr×r,由a^k逐列排成。第k个特征图的卷积节点(i,j)的值ci,j,k由下式计算:
ci,j,k(x)=∑m=1r∑n=1r(xi+m?1, j+n?1?am,n,k), i,j=1,?,(d?r+1)(9)
C. 平方根池化(square/square-root pooling)结构
池化大小e表示池化中心到边的距离,且池化图(pooling map)与特征图大小相同((d?r+1)×(d?r+1))。ci,j,k和hp,q,k,分别表示第k个特征图中的节点(i,j)和第k个池化图中的组合节点(p,q)。
hp,q,k=∑i=p?ep+e∑j=q?eq+ec2i,j,k?????????????,p,q=1,?,(d?r+1)if (i,j) is out of bound, then ci,j,k=0.(10)
- 平方与求和操作:网络引入非线性校正(rectification nonlinearity)和平移不变性(translation invariance)的特性;
- 卷积操作后紧跟平方/平方根池化结构:使网络具有频率选择性(frequency selective)和平移不变性(translation invariance);
- 因而非常适合于图像处理。
D. 基于输出权重的闭式解
池化层与输出层全连接,输出权重β,采用正则化最小二乘(Regularized Least-Squares)法解析地计算。
对于每一个输入样例x,使用式(9)计算特征图的值,然后使用式(10)计算池化图(即组合层)的值。简单地连接所有组合节点的值形成一个行向量,并把N个输入样例的行向量放在一起,得到组合层矩阵H∈RN×K?(d?r+1)2,输出权重矩阵通过下式(式11和12)计算:
if N≤K?(d?r+1)2
β=HT(IC+HHT)?1T(11)
if N>K?(d?r+1)2
β=(IC+HHT)?1HTT(12)
讨论
A. 普适近似和分类能力
- 输入与隐藏层节点间的连接,是根据不同类型的连续概率分布随机采样构建的,这样的网络依然具有普适近似能力和分类能力。
- 输入与隐藏层节点间没有连接的,可以认为连接权重不重要以至于可以忽略,因而仍然可以认为分布函数是连续的,可以保持网络的普适近似与分类能力。
- ELM中的隐藏层节点可以是不同节点的线性或非线性组合。
由于隐藏层节点的激活函数是非线性分段连续的,所以第k个池化图hp,q,k中的组合节点(p,q),仍然可以表示成ELM隐层节点的基本形式:
hp,q,k=G(ap,q,bp,q,x), p,q=1,?,(d?r+1)
在平方根池化结构中,G显然是非线性分段连续的,所以ELM-LRF仍然保留了普适近似与分类能力,从而可以学习输入数据更为复杂的特征。
B. ELM-LRF与HTM和CNN的关系
- ELM-LRF与HTM:在通过构造一层一层的学习模式,来模拟大脑处理逐渐复杂的输入形式上是相似的;然而,ELM-LRF更为有效,因为ELM-LRF网络的连接和输入权重都是随机生成的,而HTM需要仔细设计网络和调整参数。
- ELM-LRF与CNN:它们都直接处理原始输入,并利用局部连接来限制网络学习诸如自然图像和语言中的空间相关性。它们的不同是:
- 局部感受野:ELM-LRF更为灵活和宽泛,可以根据不同类型的概率分布随机采样生成,而CNN只使用卷积隐藏层节点;尽管本文仅使用随机卷积节点作为ELM-LRF的特殊的局部感受野,研究其它类型的感受野也是很有价值的。
- 训练:CNN中的隐藏层节点需要调整,而通常采用BP算法,这使得CNN面临BP中的琐碎问题,如:局部最优,慢的收敛速度。而ELM-LRF随机生成输入权重并解析地计算输出权重。也就是计算主要是输出权重的计算,从而ELM-LRF更为高效。
实验
实验数据
ELM-LRF与Deep Learning的方法进行了对比,数据集选择目标识别数据集:NORB。NORB包含24300幅训练用立体图像(stereo image)和24300幅测试用立体图像,每个都有5类并且很多都进行了3D和光照处理。下图是NORB数据集中的60个样例,每个样本有两幅图,物体尺寸是归一化的,背景也是一致的。文中进行了下采样到32×32的操作。
实验平台与参数
实验平台:MATLAB2013a,Intel Xeon E5-2650,2GHz GPU,256GB RAM。
参数:感受野大小{4×4,6×6};特征图的数量{24,36,48,60};池化大小1,2,3,4;C 的值{0.01,0.1,1,10,100},采用5倍交叉验证,来选择参数,结果如下表1:
表1 最优参数
DATASET |
# OF TRAINING DATA |
# OF TESTING DATA |
INPUT DIMENSIONS |
RECEPTIVE FIELD |
# OF FEATURE MAPS |
POOLING SIZE |
C |
NORB |
24300 |
24300 |
32×32×2 |
4×4 |
48 |
3 |
0.01 |
A. 测试误差
如表2所示,ELM-LRF要比其它微调的算法的精度更高,而且耗时少。与CNN和DBN的方法相比,ELM-LRF将错误率从6.5%降到2.74%。
表2 不同算法的测试误差
ALGORITHMS |
TEST ERROR RATES |
ELM-LRF |
2.74% |
ELM-LRF (NO ORTHOGONALIZATION) |
4.01% |
RANDOM WEIGHTS (ELM FEATURE MAPPING + SVM CLASSIFIER) |
4.8% |
K-MEANS + SOFT ACTIVATION |
2.8% |
TILED CNN |
3.9% |
CNN |
6.6% |
DBN |
6.5% |
B. 训练时间
公平起见,其它的算法也运行在本实验平台,如表3所示,ELM-LRF学习速度比其它算法快至200倍。
表3 训练时间对比
ALGORITHMS |
TRAINING TIM(s) |
SPEEDUP TIMES |
ELM-LRF |
394.16 |
217.47 |
ELM-LRF (NO ORTHOGONALIZATION) |
391.89 |
218.73 |
RANDOM WEIGHTS (ELM FEATURE MAPPING + SVM CLASSIFIER) |
1764.28 |
48.58 |
K-MEANS + SOFT ACTIVATION |
6920.47 |
12.39 |
TILED CNN |
15104.55 |
5.67 |
CNN5 |
53378.16 |
1.61 |
DBN |
85717.14 |
1 |
C. 特征图
下图显示了一个样本的48个特征图。可以看出,这些特征图的轮廓线相似的,这是由于它们来自同一幅输入图像。然而每个图都有自己明显突出的部分,这就获得了原始图像的互异表示,就原始图像的不同抽象,使得分类变得容易和准确。
D. 随机输入权重的正交化
实验,也分析了随机输入权重的正交化的贡献。以48个特征图中的卷积节点中心的值为例,下图显示了48个特征图中,中心卷积节点的值在对输入权重正交化前后的变化分布。
可以看出,正交的随机权重的分布更均匀,特征图中的其它位置的卷积节点也是如此。所以正交化使得物体更加线性独立和易分类的。
然而,即使不正交化,仍能获得4.01%的测试误差与传统方法相比,减少了38%。
结论
- ELM中引入局部感受野来学习局部结构;
- 组合节点的引入使网络具有平移不变性;
- 输入权重随机生成,然后进行正交化,这样可以提取更为完备的特征;
- 输出权重可以解析地计算,计算复杂度低;
- 局部感受野的形式多样;
- 随机卷积节点可以作为ELM的一个有效的局部感受野实现方法;
- 实验表明,无论在精度上还是学习速度上,ELM-LRF都远优于传统的深度学习方法。
进一步的工作:
- ELM的不同类型的局部感受野的影响;
- ELM的不同卷积节点的影响;
- 堆栈式ELM-LRF,可以通过在前一组合层后采用局部连接来堆叠ELM-LRF。
代码实现
未提供源码,本人尚在实现中!!!
参考文献