这个文章并不是详细的讲解,只是总结一下我用meanshift的一些体会
先简单说一下meanshift算法的原理:
如下图所示,先指定一个区域,通过把指定区域的几何中心与质心想比较,如果相差较大,将区域的几何中心移到质心处,然后继续做比较。直到这个区域的几何中心与质心重合。用这个方法,可以找到一个图片中点最密集的地方。
将meanshift应用于目标跟踪,其实就是构造一个运行图片的PDF,然后应用上述的梯度爬坡的思想,找到最密集的区域。基本思路如下:
1 在A帧中选择一个目标a
2 根据B帧与a的关系,得到B的PDF
3 meanshift方法找到概率密度最密集的区域,这个区域就认为是目标在B帧中的位置
怎么构造PDF图,我找到两种方法:
1 先求目标a的直方图,用这个直方图在B帧中反投影。所谓反向投影其实很简单。就是把B帧中每一个像素的灰度值用这个灰度值在目标a的直方图中对应的值表示。这样反向投影之后,如果B帧的反向投影图的一个点的值特别大,就认为在个点原来的像素值在目标中出现的次数特别多,也就认为这个点是目标中的一个点的概率特别大。
当然这种方法的缺点是很大的。尤其中当目标与背景灰度相差不是很大的时候,这方法效果很不好。
这个方法当然也有优点,就是算法的速度比较快,我在没有任何优化的情况下,1秒能处理100帧。
2 在B帧中找一个与目标a相同大小的区域,把 这个区域命名为b,然后计算b的直方图,然后比较a的直方图与b的直方图的差别,用一个值来表示这种差别,并把这个值替换B帧中的像素值。
可以将a直方图与b直方图的两个向量,归一化后,用这两个向量的点积来表示它们之间的差别程序,差别越大,那么这两个归一化向量的夹角越大,那么他们的点积就越小。如果差别越小,那么这两个归一化向量的夹角就越小,点积也就越大。用它们的点积来代替B帧中的像素值,通过移动B帧中的区域b,可以将B帧中所有的点,用一个点积表示,且这个点积的值越大,则这个点对应的区域与目标越接近。这样就得到了B帧的PDF。
这样处理之后,就可以用meanshift算法来进行梯度爬坡,找到与目标最接近的区域的位置了。
这种方法的鲁棒性要好一点,但是处理速度没有上一种方法快。
原文地址:http://blog.csdn.net/d14665/article/details/42462879