码迷,mamicode.com
首页 > Web开发 > 详细

【CV论文阅读】Dynamic image networks for action recognition

时间:2016-08-15 17:22:38      阅读:1346      评论:0      收藏:0      [点我收藏+]

标签:

论文的重点在于后面approximation部分。

 

在《Rank Pooling》的论文中提到,可以通过训练RankSVM获得参数向量d,来作为视频帧序列的representation。而在dynamic论文中发现,这样的参数向量d,事实上与image是同等大小的,也就是说,它本身是一张图片(假如map技术分享与image同大小而不是提取的特征向量),那么就可以把图片输入到CNN中进行计算了。如下图可以看到一些参数向量d pooling的样例

 技术分享

 

 

参数向量d的快速计算

把计算d的过程定义一个函数技术分享。一个近似的方法是初始化技术分享,通过梯度下降的方法求解d的最优值

技术分享技术分享,最终可以得到,

 技术分享

把上式展开得

 技术分享

其中技术分享。在这里技术分享,于是结果为技术分享

 

Dynamic Maps Network

 技术分享

可以看到rank pooling操作把多个image的信息pooling到一张image。上图的结构中,可以看到rank pooling的操作要么直接作用在输入的image上,要么作用在经过多层CNN提取的feature image上,因此可以把pooling 操作定义如下函数

 技术分享

可以把pooling层表达成一个线性的组合技术分享,由于Vt是一个线性函数技术分享,于是重写

技术分享

可以看到函数技术分享本身也依赖于技术分享,对于BP算法的求导而言是很困难的。

 

使用近似的方法

从近似计算参数向量d的方法中可以看到,系数技术分享是独立于image的。直接使用d的近似计算技术分享来替代计算的线性组合,则BP算法后向传播时可以看到偏导数的解为

 技术分享

技术分享是一个单位矩阵。很明显,技术分享是一个常数。

 

总结

个人认为,近似的方法很巧妙,实验结果也挺好的,但近似的方法好像不大合理的样子……

【CV论文阅读】Dynamic image networks for action recognition

标签:

原文地址:http://www.cnblogs.com/jie-dcai/p/5773476.html

(1)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!