运动目标检测ViBe算法

时间：2015-04-17 10:50:57 阅读：259 评论：0 收藏：0 [点我收藏+]

标签：

一、运动目标检测简介

视频中的运动目标检测这一块现在的方法实在是太多了。运动目标检测的算法依照目标与摄像机之间的关系可以分为静态背景下运动检测和动态背景下运动检测。先简单从视频中的背景类型来讨论。
静态背景下的目标检测，就是从序列图像中将实际的变化区域和背景区分开了。在背景静止的大前提下进行运动目标检测的方法有很多，这些方法比较侧重于背景扰动小噪声的消除，如：
1.背景差分法
2.帧间差分法
3.光流法
4.混合高斯模型（GMM）
5.码本（codebook）
还有这些方法的变种，例如三帧差分，五帧差分，或者这些方法的结合。
运动背景下的目标检测，相对于静态背景而言，算法的思路就有所区别了，一般会更加侧重于匹配，需要进行图像的全局运动估计与补偿。因为在目标和背景同时运动的情况下，是无法简单的根据运动来判断的。运动背景下的运动目标检测算法也有很多，如
1.块匹配
2.光流估计
这些方法总得来在不同的环境下说各有各自的特点吧，也不见得简单的算法就一定比复杂的要弱。有一些博客已经对这些方法进行了对比和评估，有兴趣的同学可以参考这些

（摘自http://blog.csdn.net/zouxy09/article/details/9622401）
推荐一个牛逼的库：http://code.google.com/p/bgslibrary/ 里面包含了各种背景减除的方法，可以让自己少做很多力气活。
还有一篇评估的博文http://www.cnblogs.com/xrwang/archive/2010/02/21/ForegroundDetection.html

二、GMM算法简介

不得不提的是其中的GMM算法（可以参考 Adaptive background mixture models for real-time tracking），这种算法在我平时要用到运动检测的时候一般都会直接用，原因有两个，第一，效果确实不错,噪声可以很快消除，第二，opencv包含了GMM算法，可以直接调用，非常省事。

GMM简单讲，将输入图像的像素与背景模型进行对比，和背景模型相似性比较高的点视为背景，和背景模型相似性比较低的点视为前景，再利用形态学的方法进行运动目标提取。混合高斯模型是由K个（基本为3到5个）单高斯模型加权组成的。在获取新的一帧图像之后，如果当前图像中的像素点与该像素的K个模型中的某一个匹配度比较高，则视为背景,并将当前帧的像素作为一个新模型，更新已存在的K个模型。如果匹配度比较低，则为前景点。整个混合高斯模型算法主要是有方差和均值两个参数,对于这两个参数采取不同的学习机制,直接影响该算法的正确性、稳定性和收敛性。代码网上到处都有，例如http://blog.csdn.net/pi9nc/article/details/21717669，需要的同学可以去看看。

三、ViBe算法

不过，我今天介绍的主角并不是GMM，而是ViBe算法。在网上各处看到ViBe算法是个很牛逼的算法，据说还把GMM给PK下去了,所以我就拜读了原文 ViBe: a powerful random technique to estimate the background in video sequences。
ViBe算法是由Olivier Barnich 和 Marc Van Droogenbroeck在2011年提出的一种背景建模方法。该算法采用邻域像素来创建背景模型，通过比对背景模型和当前输入像素值来检测前景，可以细分为三个步骤：
第一步，初始化单帧图像中每个像素点的背景模型。假设每一个像素和其邻域像素的像素值在空域上有相似的分布。基于这种假设，每一个像素模型都可以用其邻域中的像素来表示。为了保证背景模型符合统计学规律，邻域的范围要足够大。当输入第一帧图像时，即t=0时，像素的背景模型

技术分享 $技术分享$

其中， $技术分享$ 表示空域上相邻的像素值， $技术分享$ 表示当前点的像素值。在N次的初始化的过程中， $技术分享$ 中的像素点 $技术分享$ 被选中的可能次数为L=1,2,3,…,N。

第二步，对后续的图像序列进行前景目标分割操作。当t=k时，像素点 $技术分享$ 的背景模型为 $技术分享$ ，像素值为 $技术分享$ 。按照下面判断该像素值是否为前景。

$技术分享$

这里上标r是随机选的；T是预先设置好的阈值。当 $技术分享$ 满足符合背景#N次时，我们认为像素点 $技术分享$ 为背景，否则为前景。

第三步，背景模型更新方法。ViBe算法的更新在时间和空间上都具有随机性。
时间上的随机性。在N个背景模型中随机抽取一个，设为图像 $技术分享$ ，图2-1表示了图像 $技术分享$ 的x位置及其八邻域内的像素。当我们得到新的一帧图像 $技术分享$ 时，如果图像 $技术分享$ 中的x位置对应的像素 $技术分享$ 被判断为背景，则 $技术分享$ 需要被更新。这个抽取的过程体现了时间上的随机性。
空间上的随机性。在 $技术分享$ 的八邻域中随机抽取一个像素 $技术分享$ ，用 $技术分享$ 的来替换掉 $技术分享$ ，这体现了模型更新空间上的随机性。