Fisher Vector学习笔记

时间：2015-06-21 02:05:43 阅读：1313 评论：0 收藏：0 [点我收藏+]

1，背景

现有的模式分类方法主要分为两类，一类是生成式方法，比如GMM，这类方法主要反映同类数据之间的相似度；一类是判别式方法，比如SVM，主要是反映异类数据之间的差异。fisher kernel是想要结合二者的优势（1，生成式方法可以处理长度不一的输入数据，2，判别式方法不能处理长度不一的数据但是分类效果较好。），将生成式模型用于判别式分类器中。

关于处理长度不一的数据，举例说明如下：
我们要对一个图片集 $I={X_1,X_2...}$ 中的图片做分类，考虑生成式的方法，GMM，是对每一幅图片 $X_i={x_1,...x_T}$ 的特征 $x_i$ 建模(每个 $x_i$ 是D维特征向量)，T代表一幅图片中提取的特征点个数，所以T的大小变化，不影响GMM建模。但是判别式分类器如SVM中是要计算样本X之间的距离，如果每个X的特征点个数T不一样，那么他们的维度也就不一样，无法计算他们之间的距离。

论文《Exploiting generative models in discriminative classifiers》中对fisher kernel进行了理论上的一系列推导和阐述。论文《Fisher Kernel on Visual Vocabularies for Image Categorization》中fisher kernel被应用于图像分类，本文主要参考这篇。论文《Improving the Fisher Kernel for Large-Scale Image Classification》中对fisher vector做改进。

fisher kernel被应用于图像分类的主要思路是，用生成式模型(GMM)对样本输入进行建模，进而得到样本的一种表示(fisher vector)，再将这种表示(fisher vector)输入判别式分类器(SVM)得到图像分类结果。fisher vector是fisher kernel中对样本特征的一种表示，它把一幅图片表示成一个向量。
本文主要关注fisher vector。

2，fisher kernel

核方法可以定义一种基于核函数的判别式分类器，可表示如下：

S n e w = s i g n (\sum i S i λ i K (X i, X n e w))

$S_{new} = sign(\sum_iS_i\lambda_iK(X_i,X_{new}))$

Xi,Si $X_i,S_i$ 是训练集中样本i的值和它的label值，label值只能取+1和-1，也就是分成两类，

λi $\lambda_i$ 是样本i在训练集中所占的权重；

Xnew，Snew $X_{new}，S_{new}$ 是一个新来的样本值和分类器预测出得它的label值；
这里的

K(Xi,Xnew) $K(X_i,X_{new})$ 是一个核函数，度量新样本

Xnew $X_{new}$ 和训练集样本

Xi $X_i$ 之间的相似度。

所以需要确定 $\lambda$ 和核函数 $K(X_i,X_j)$ 就可以确定一种基于核的分类方法。其中 $\lambda$ 可以通过做一些优化得到，而在fisher kernel中，就是利用fisher信息矩阵得到一个核函数来度量样本相似度。

对于一个核函数，有如下的形式：

K (X i, X j) = ? T X i ? X j .

$K(X_i,X_j)=\phi_{X_i}^T\phi_{X_j}.$
这里是一个内积的形式，我们将一幅图片的特征们X映射到一个新的特征向量，也就是

?X $\phi_{X}$ ，那么这个内积就是这两个新特征向量

?Xi,?Xj $\phi_{X_i},\phi_{X_j}$ 的欧式距离，很直观地反映了样本i,j之间的相似度。

这个 $\phi_{X}$ 就是fisher kernel中的样本表示方法，它就是fisher vector，它由fisher score归一化得到， $F_\lambda$ 是fisher信息矩阵：

? X = F ? 1 2 λ U x .

$\phi_{X}=F_{\lambda}^{-\frac{1}{2}}U_x.$

定义fisher score:

U x = ? λ l o g p (X | λ) .

$U_x = \nabla_{\lambda}log p(X|\lambda).$
X服从分布p，p的参数是

λ $\lambda$ ，在fisher kernel中，p是一个GMM，

X=x1,...xT $X={x_1,...x_T}$ 是一幅图片的特征集合（可以用sift特征），

λ $\lambda$ ={

wi,μi,∑i,i=1...N $w_i,\mu_i,\sum_i,i=1...N$ }，它是GMM的模型参数，

wi $w_i$ 是GMM中第i个component的权重，

μi,∑i $\mu_i,\sum_i$ 是均值和协方差，由高斯模型的原理可知这两个都是向量，且和特征向量

xt $x_t$ 的维度一致，都是D维（如果

xt $x_t$ 是一个sift特征向量，那么它们就是128维）。
这个log似然函数对

λ $\lambda$ 的梯度，描述了参数

λ $\lambda$ 在p生成特征点集合X的过程中如何作用，所以这个fisher score中也包含了GMM生成X的过程中的一些结构化的信息。

$F_{\lambda}^{-\frac{1}{2}}$ 是用来对 $U_x$ 做归一化的，所以 $F_{\lambda}=U_XU_X^T$ ，这里来证明一下这个归一化，记 $V=U_X$ :

[(V V T) ? 1 2 V] T [(V V T) ? 1 2 V] = V T [(V V T) ? 1 2] T (V V T) ? 1 2 V = V T (V V T) ? 1 V V T V = 1

$[(VV^T)^{-\frac{1}{2}}V]^T[(VV^T)^{-\frac{1}{2}}V]=V^T[(VV^T)^{-\frac{1}{2}}]^T(VV^T)^{-\frac{1}{2}}V=V^T(VV^T)^{-1}VV^TV = 1$

所以核函数就有了如下分解形式：

K (X i, X j) = U T X i F ? 1 λ U X j

$K(X_i,X_j) = U_{X_i}^TF_{\lambda}^{-1}U_{X_j}$
这里要求

F?1λ $F_{\lambda}^{-1}$ 是半正定的，所以给F求期望：

Fλ=Ex(UXUTX). $F_{\lambda}=E_x(U_XU_X^T).$

至此，我们就能对一幅图片的特征点集合计算出fisher vector了。

3，计算fisher vector

首先定义：

L (X | λ) = l o g p (X | λ) = \sum t = 1 T l o g p (x t | λ) .

$L(X|\lambda)=logp(X|\lambda)=\sum_{t=1}^Tlogp(x_t|\lambda).$
由于一幅图片中的特征点是相互独立的，所以：

p (x t | λ) = \sum i = 1 N w i p i (x t | λ) .

$p(x_t|\lambda)=\sum_{i=1}^Nw_ip_i(x_t|\lambda).$

pi $p_i$ 是GMM中第i个component的pdf，

wi $w_i$ 是其权值，

∑Ni=1wi=1. $\sum_{i=1}^Nw_i=1.$
component

pi $p_i$ 的pdf是多元高斯函数，如下：
技术分享

再定义特征

xt $x_t$ 由第i个Gaussian component生成的概率：
技术分享

首先对参数求偏导可得到:

U X = [? L ( X | λ ) ? w i, ? L ( X | λ ) ? μ d i, ? L ( X | λ ) σ d i] T, i = 1... N .

$U_X=[\frac{\partial L(X|\lambda)}{\partial w_i},\frac{\partial L(X|\lambda)}{\partial \mu_i^d},\frac{\partial L(X|\lambda)}{\sigma_i^d}]^T,i=1...N.$
其中
技术分享

注意这里i是指第i个component，d是指特征

xt $x_t$ 的第d维，偏导是对每个component，对特征每个维度都要计算，所以此时

UX $U_X$ 的维度是(2D+1)*N，D是

xt $x_t$ 维度，N是component个数。又由于

wi $w_i$ 有约束

∑iwi=1 $\sum_i w_i=1$ ，所以会少一个自由变量，所以

UX $U_X$ 最终的维度是(2D+1)*N-1.

求得 $U_X$ 后，就可以求 $F_\lambda$ ，设F中对角线上的元素可以表示为 $f_{w_i},f_{\mu_i^d},f_{\sigma_i^d}$ , 通过简单的求期望运算就可以得到它们的值：
技术分享
这里算得的矩阵F两个维度都是(2D+1)*N-1.

所以fisher vector

? X = [ X w, d, i,  X μ, d, i,  X σ, d, i] = [f ? 1 / 2 w i ? L ( X | λ ) ? w i, f ? 1 / 2 μ d i ? L ( X | λ ) ? μ d i, f ? 1 / 2 σ d i ? L ( X | λ ) ? σ d i] .

$\phi_X=[\mathcal G_{w,d,i}^X,\mathcal G_{\mu,d,i}^X,\mathcal G_{\sigma,d,i}^X]= [f_{w_i}^{-1/2}\frac{\partial L(X|\lambda)}{\partial w_i},f_{\mu_i^d}^{-1/2}\frac{\partial L(X|\lambda)}{\partial \mu_i^d},f_{\sigma_i^d}^{-1/2}\frac{\partial L(X|\lambda)}{\partial \sigma_i^d}].$
维度和

UX $U_X$ 一样，也是(2D+1)*N-1.

4，总结

fisher vector的结果是对原图像特征升维了（从D到(2D+1)*N-1），它从图像的一种特征向量中挖掘了出更丰富的信息，最终对 $\phi_X$ 我们可以算得对均值和协方差的梯度:
技术分享

可以看到，D维向量 $x_t$ 中的每一个值，都与均值和方差做运算，并加上权重，fisher vector中包含了原特征向量每一维的值，并且包含了生成式建模过程的结构性信息，对图片的表达更加细致。

Fisher Vector学习笔记

标签：特征模式分类器方法 fisher

原文地址：http://blog.csdn.net/happyer88/article/details/46576379

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行