Fisher Vector的改进

时间：2015-06-24 21:06:35 阅读：204 评论：0 收藏：0 [点我收藏+]

《Fisher vector学习笔记》中介绍了fisher vector相关知识，本文接着这片学习笔记，来记录论文《Improving the Fisher Kernel for Large-Scale Image Classification》中第三部分提出的对fisher vector的3种改进。

1，L2 Normalization
首先假设一幅图像的特征们 $X={x_t,t=1...T}$ 服从一个分布p，对于Large-Scale image，根据大数定律，样本数T增大时，样本均值收敛于样本期望 $E_{x-p}$ ，所以可将(1)式的fisher vector写成(2)式：

G X λ = 1 T \sum t = 1 T ? λ l o g u λ (x t) . (1)

$G_{\lambda}^X=\frac{1}{T}\sum_{t=1}^T\nabla_{\lambda}logu_{\lambda}(x_t) .(1)$

G X λ \approx ? λ E x ? p l o g u λ (x) = ? λ \int x p (x) l o g u λ (x) d x . (2)

$G_{\lambda}^X\approx \nabla_{\lambda}E_{x-p}logu_{\lambda}(x)=\nabla_{\lambda}\int_xp(x)logu_{\lambda}(x)dx.(2)$
现在假设能把p分解成两部分：
属于图像背景的部分(a back-ground image-independent part) ,这部分样本服从分布

uλ $u_{\lambda}$ ;
属于图像特征的部分(an image-specific part),这部分样本服从分布q.
定义

0<=w<=1 $0<=w<=1$ 是image-specific信息在图像中所占的比率，则有：

p (x) = w q (x) + (1 ? w) u λ (x) . (3)

$p(x)=wq(x)+(1-w)u_{\lambda}(x).(3)$
则(2)式可以写成：

G X λ \approx w ? λ \int x q (x) l o g u λ (x) d x + (1 ? w) ? λ \int x u λ (x) l o g u λ (x) d x . (4)

$G_{\lambda}^X\approx w\nabla_{\lambda}\int_xq(x)logu_{\lambda}(x)dx+(1-w)\nabla_{\lambda}\int_xu_{\lambda}(x)logu_{\lambda}(x)dx.(4)$
参数

λ $\lambda$ 是在GMM建模时通过解最大似然问题得到的，也就是说，这个

λ $\lambda$ 使得：

? λ \int x u λ (x) l o g u λ (x) d x = ? λ E x ? u λ l o g u λ (x) \approx 0. (5)

$\nabla_{\lambda}\int_xu_{\lambda}(x)logu_{\lambda}(x)dx=\nabla_{\lambda}E_{x-u_{\lambda}}logu_{\lambda}(x)\approx 0.(5)$
所以(4)式为：

G X λ \approx w ? λ \int x q (x) l o g u λ (x) d x = w ? λ E x ? q l o g u λ (x) . (6)

$G_{\lambda}^X\approx w\nabla_{\lambda}\int_xq(x)logu_{\lambda}(x)dx=w\nabla_{\lambda}E_{x-q}logu_{\lambda}(x).(6)$

从(6)式可以看出：
     独立于图像的信息(image-independent information)在fisher vector的表示中被丢弃掉了；
     fisher vector的表示仍然与image-specific信息所占比率w有关。
     总结来说就是，两个包含相同目标(object)，但有不同背景的图，会有不同的fisher vector表示。

但是对于较小的object有较小的w值，这样的object在fisher vector表示中容易被忽略。所以要消除对w值的依赖。

要消除对w值的依赖，可以对fisher vector $G_{\lambda}^X$ 做L2 normalization，也就等价于把原来的核函数 $K(X,Y)$ 替换为

K ( X , Y ) K ( X , X ) K ( Y , Y ) ￣ ￣ ￣ ￣ ￣ ￣ ￣ ￣ ￣ ￣ ￣ ￣ ￣ ￣ ￣ \sqrt

$\frac{K(X,Y)}{\sqrt{K(X,X)K(Y,Y)}}$

2，Power Normalization
     这种改进方法来自观察得到的经验：GMM中的Gaussian component数目增加时，Fisher vector会变得稀疏。这是因为component增加时，样本 $x_t$ 由component i生成的概率 $\gamma_t(i)$ 会变小，当这个概率接近0时， $\mathcal G_{\mu,i}^X,\mathcal G_{\sigma,i}^X$ 也接近null。
技术分享

     此时，特征在一个维度上的值的分布变得更尖锐，如下图。图(a)(b)(c)是没有做power normalization时，GMM component数为16、64、256的情况。图(d)是有256 Gaussian，且做了power normalization（ $\alpha$ =0.5）的情况。

      $\alpha$ 是optimal value，随Gaussian的数目变化而变化，这里作者是通过实验得到0.5这个值。
     这里说的power normalization就是对每一维应用如下函数：

f (z) = s i g n (z) | z | α

$f(z)=sign(z)|z|^{\alpha}$
因为注意到L2 normalized vector的内积就是L2 距离，而对于稀疏向量(就是power normalize之前的fisher vector)相似性(similarity)的度量，L2距离是一种poor measure，所以用来做分类效果不好。所以要unsparsify，也就是应用上式。

如果要对fisher vector做L2 normalization和power normalization，可先做power后再做L2，后做L2照样是会消除对w值的依赖。

3，Spatial Pyramids
首先把原图多次划分，得到多个子区域，然后对每个子区域提取fisher vector，再对这些fisher vector做average pooling。论文中是有8个子区域，得到8个fisher vector，对于整幅图提取一个fisher vector, 然后将图划分为上中下3部分，这3个子区域各提取一个fisher vector，然后将原图划分为4个象限，每个象限计算一个fisher vector。这8个fisher vector都可以通过L2 normalization来消除对w值的依赖。

Fisher Vector的改进

标签：fisher vector feature improve

原文地址：http://blog.csdn.net/happyer88/article/details/46625639

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行