码迷,mamicode.com
首页 > 其他好文 > 详细

【CV论文阅读】Deep Linear Discriminative Analysis, ICLR, 2016

时间:2017-05-04 21:59:44      阅读:265      评论:0      收藏:0      [点我收藏+]

标签:oss   公式   对比   represent   梯度下降   去中心化   tween   work   height   

DeepLDA 并不是把LDA模型整合到了Deep Network,而是利用LDA来指导模型的训练。从实验结果来看,使用DeepLDA模型最后投影的特征也是很discriminative 的,但是很遗憾没有看到论文是否验证了topmost 的hidden representation 是否也和softmax指导产生的representation一样的discriminative。

DeepLDA和一般的deep network唯一不同是它的loss function。两者对比如下:

技术分享

对于LDA,优化的目标是最小化类内方差,同时最大化类间方差。由于LDA是一个有监督的模型,对于多分类的情况如技术分享个类,则最终投影的一个子空间技术分享的维数只有技术分享。多分类情况LDA优化的目标公式为,

技术分享

其中A就是投影矩阵。技术分享是between scatter matrix,可以理解为类中心间的方差;而技术分享定义为within scatter matrix,可以理解为类内协方差的和。它们的计算公式如下:

技术分享

这里,我们已经假设所有的样本都是去中心化的了技术分享。最后问题变成了一个泛化的特征方程求解的问题技术分享,矩阵A对应着相应的特征向量。

 事实上,特征向量指示着投影最大方差的方向,特征值则是对特征向量重要程度的一个量化。而论文的一个insight就是,希望可以指导网络生成topmost的representation能够在各个方向都产生较大的特征值,即不希望投影的方向在某个方向更方差会更大,因为这代表了信息量的多少。论文提出一种直接把特征值作为loss function的方法,因为训练的时候,网络倾向于优化最大的特征值,产生一个trivial的结果,即使得大的特征值会倾向于更大而牺牲其他小的特征值。因此论文定义loss function在小的特征值上:

技术分享

特征值的求解是建立在topmost的representation的基础上的。模型的训练使用mini-batch的随机梯度下降法,而特征值技术分享可以直接对representation 技术分享进行求导:

技术分享

论文的appendix可以看到完整的求导过程。

 

最后,论文的实验室通过对project后的特征进行分类,所以比较的是分类的精度,以及test error。而且,实验的结果还挺competitive的。

技术分享

 

 

 

【CV论文阅读】Deep Linear Discriminative Analysis, ICLR, 2016

标签:oss   公式   对比   represent   梯度下降   去中心化   tween   work   height   

原文地址:http://www.cnblogs.com/jie-dcai/p/6808862.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!