码迷,mamicode.com
首页 > 其他好文 > 详细

视频识别,小,小,小综述~

时间:2018-08-18 16:20:36      阅读:191      评论:0      收藏:0      [点我收藏+]

标签:综述   运动   ble   视频识别   lin   lstm   nta   类别   kill   

【胡扯】:最近一周一直在忙着做视频识别的项目,前期对视频完全小白,最近复现了cvpr 2018 上面的一篇文章,效果还行,下周把自己的思路加上网络,进行训练,看看效果如何,我想应该效果不错,因为我是大佬呀~~~哈哈。这篇博文只是一些简单的综述,换言之也是我这周的学习之旅,就做个总结吧。

一: 数据集介绍

我们这里主要介绍常用的大点的数据集,像KTH 这种小的,咱就不说了。

  1. UCF 101 数据集

    其实也没啥介绍的,就是101种视频,现在CVPR 最高的结果好像是>93.4% 效果还是不错的。

    官网:UCF101

    使用方式:UCF101的处理与加载

  2. HMDB51数据集

    这个数据集最难,现在最高的识别率也就82%左右,其实我感觉主要数据量太少了,如果这个数据集能扩充,估计效果还行,有没有小伙伴去干这件事情呢,我的意思是只针对这51种视频,数据量(double kill triple killquadra killpenta kill)原谅我是moba 游戏粉呢。如果数据量充分,我想我后面介绍的几种思路的结果应该可以更上一层楼。
    官网:HMDB51

  3. 这个数据集最重要,谷歌在youtube上搞的,相当于视频届的imagenet。众所周知,imagenet训练的参数拿过来迁移学习在大部分数据集上都能得到好的效果,哈哈,聪明的人大概就能猜出来这个数据集的妙用了吧。 为什么,因为它大呀,现在有600种类别了。详细的自己去官网看吧。

    官网:kinetics

    二: 主流方法

    1:CNN+LSTM 方法

    这个思路其实很朴素,在image caption中现在最先进的一类方法就是在这个加上attention model。

    方法如下:

    技术分享图片

    视频嘛,说白了就是由很多图片组成的,只是这些图片有个特点就是有很强的时序性,那么这就好办了啊,抽取特征,然后代入RNN 或者LSTM,最后进行预测,这个想法很直接,但是目前的效果不太好,不过这个时序的思想,可以借用。

    2:3D-ConvNet

    这个就是传统的卷积上加了一维用于预测时序,以前的卷积核是这样(Kxk),现在的卷积核是这样(kxkxk)变成了三维的,最后一维就是时序,框架如下:

    技术分享图片

    但是这个方法有个缺点就是参数特别巨大,而视频这一块的数据量不够,也不能这么说,就是被清洗干净的数据集太少了,希望有李飞飞那样的大佬出来,出一个更大的数据集。

    3 Two-stream

    双流型:

    技术分享图片

    如上图,视频可以很自然的被分为 空间部分和时间部分,空间部分主要对应单张图像中的 appearance,传递视频中描述的场景和物体的相关信息。时间部分对应连续帧的运动,主要用最基本的光流法,有兴趣的小伙伴可以去研究下,包含物体和观察者(相机)的运动信息,之后直接进行特征相连进行分类(这里没有融合,之后这篇文章的下文就进行了融合)。 这篇文章是2014NIPS上发表的:

    Two-Stream Convolutional Networks for Action Recognition in Videos

    下面的图是论文额框架,更加清晰:

     

    技术分享图片

    4:3D-Fused two-strean

    框架:

    技术分享图片

    这个用3D convNet的融合策略不一定是最好的,相信这里还有很多研究的机会。关于这个,大家可以仔细去看这篇文章。

    Convolutional Two-Stream Network Fusion for Video Action Recognition

     

    5:two-stream 3D-ConvNet

    这个方法的思路也比较自然,结合了第二种结构和第三种结构,如图:

    技术分享图片

    把一段视频分成n个K帧大小的视频流,然后分别用两个3D 卷积进行apperance 和光流进行特征抽取,在连接成一组新的特征,作为最后的识别特征,这个方法的缺点还是参数太多,咱们的数据集太小,容易过拟合,但是kinetics出来,很好的解决了这个问题,所有这个方法是现在最好的。

    结尾

    写的不是太多,也不详细,只是粗略地整理了下思路。

    思路点1:识别动作,无非就是时间与空间的协调性,如何处理这两者的关系。

    思路点2:两者的融合问题。

    思路点3:我感觉视频里的多余动作如何进行有效隔离,这个是研究的重点。、

     

    视频动作识别的应用:

    色情视频过滤 (现在直播平台的色情主播呀)

    暴恐视频过滤

    涉政视频过滤

    违规MD5库 (这个我不太懂哎,有知道的,可以告诉我呀~~)

视频识别,小,小,小综述~

标签:综述   运动   ble   视频识别   lin   lstm   nta   类别   kill   

原文地址:https://www.cnblogs.com/xiaohuahua108/p/9497431.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!