视频描述（Video Captioning）调研

时间：2017-11-08 23:33:51 阅读：2498 评论：0 收藏：0 [点我收藏+]

Video Analysis 相关领域介绍之Video Captioning(视频to文字描述)
http://blog.csdn.net/wzmsltw/article/details/71192385

基于视频图像的信息：包括简单的用CNN（VGGNet, ResNet等）提取图像(spatial)特征，
用action recognition的模型(如C3D)提取视频动态(spatial+temporal)特征

先验特征：比如视频的类别，这种特征能提供很强的先验信息

基于文本的特征：此处基于文本的特征是指先从视频中提取一些文本的描述，再將这些描述作为特征，来进行video captioning。
这类特征我看到过两类，一类是先对单帧视频进行image captioning,将image captioning的结果作为video captioning的输入特征，
另外一类是做video tagging，将得到的标签作为特征。

基于声音的特征：对声音进行编码，包括BOAW（Bag-of-Audio-Words)和FV(Fisher Vector)等

多模态概念
Multimodal Deep Learning（多模态深度学习）未完待续
http://blog.csdn.net/s2010241013/article/details/51731657

计算机视觉中的词袋模型(Bow,Bag-of-words)
http://www.cnblogs.com/YiXiaoZhou/p/5999357.html
BoW起始可以理解为一种直方图统计，开始是用于自然语言处理和信息检索中的一种简单的文档表示方法。
和histogram 类似，BoW也只是统计频率信息，并没有序列信息。
而和histogram不同的是，histogram一般统计的某个区间的频数，BoW是选择words字典，然后统计字典中每个单词出现的次数。
BoW出现在CV中，如图像分类、图像检索等。其大概过程首先提取图像集特征的集合，
然后通过聚类的方法聚出若干类，将这些类作为dictionary，即相当于words，
最后每个图像统计字典中words出现的频数作为输出向量，就可以用于后续的分类、检索等操作。

BOAW（Bag-of-Audio-Words)受到文本词袋启发音频处理
http://dynadmic-lab.com/tag/bag-of-audio-words/
FV Fisher Vector 图像启发音频处理
http://blog.csdn.net/garfielder007/article/details/50768125
GMM、fisher vector、SIFT与HOG特征资料
http://blog.csdn.net/asd8705/article/details/50285641

ICCV2015的”Sequence to Sequence – Video to Text”

CVPR2017上的“Weakly Supervised Dense Video Captioning”

Video Analysis 相关领域介绍之Video Captioning(视频to文字描述)
https://zhuanlan.zhihu.com/p/26730181

Video Analysis相关领域解读之Action Recognition(行为识别)
https://zhuanlan.zhihu.com/p/26460437

Video Analysis 相关领域解读之Temporal Action Detection(时序行为检测)
https://zhuanlan.zhihu.com/p/26603387

知乎专栏很牛掰
https://zhuanlan.zhihu.com/wzmsltw

视频描述（Video Captioning）调研

标签：bsp sdn 自然语言处理 tag lan 自然语言频率有序结果

原文地址：http://www.cnblogs.com/vincentqliu/p/7806832.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行