图像显著性论文（一）—A Model of saliency Based Visual Attention for Rapid Scene Analysis

时间：2015-12-18 21:14:26 阅读：390 评论：0 收藏：0 [点我收藏+]

标签：

这篇文章是图像显著性领域最具代表性的文章，是在1998年Itti等人提出来的，到目前为止引用的次数超过了5000，是多么可怕的数字，在它的基础上发展起来的有关图像显著性论文更是数不胜数，论文的提出主要是受到灵长类动物早期视觉系统的神经结构和行为所启发而产生了视觉注意系统。灵长类动物具有很强的实时处理复杂场景的能力，视觉信息进行深入的处理之前，对所收集到的感觉信息进行选择，这些选择可能减少场景理解的复杂性，这个选择过程在一个空间有限的视野区域即所谓的注意焦点（focus of attention， FOA）中完成的，它搜索场景的方式可以是快速、自下而上（bottom-up，BU）、显著驱动和任务独立的方式，也可以是慢速、自上而下（top-down，TD）、意志控制和任务相关的方式。注意模型包括“动态路由”模型，在此模型中，通过皮层视觉继承，从一个小的视野区域中得到的信息可以不断前行。通过皮层连接的动态修正或在TD和BU的控制下对活跃区建立特定的瞬时模式，来选择注意区域。

这篇文章所使用的模型建立在由Koch和Ullman所提出的生物模型和其他几个模型。它和所谓的特征整合模型相关，解释了人类视觉搜索策略。视觉输入首先被分为一系列特征地形图。然后在每个图中，不同的空间位置通过竞争获取显著性，只有从周围脱颖而出的位置才能保留。所有的特征图以纯粹的BU方式输入到高级的显著性图，它对整个视觉场景的局部醒目度进行地形编码。在灵长类动物中，人们相信这种图存在于后顶叶皮层（posterior parietal cortex）中，同时也存在于枕核丘脑（pulvinar nuclei ofthalamus）中。模型的显著性图被认为是产生注意转移的内部动力。因此这个模型表示了BU显著性可以引导注意转移，不需要TD。这个模型在可以进行并行处理，提高运算速度，而且可以根据特征的重要性，为特征加上权值，特征越重要，权值越大。（感觉是对文中的翻译，在网上也有PPT和论文介绍）

1、模型

技术分享

上图为整个模型的结构图，首先输入一张彩色图片，采用高斯金字塔对该图片进行下采样，生成9张尺度图，其中尺度0表示该尺度图像与原图像的像素面积比例是1：1，尺度8表示该尺度图像与源图像面积为1：256。“Center-surround” difference operations，即中央周边差操作，是根据人眼生理结构设计的。人眼感受野对于视觉信息输入中反差大的特征反应强烈，例如中央亮周边暗的情况、中央是绿色周边是红色的情况等，这都属于反差较大的视觉信息。在高斯金字塔中，尺度较大的图像细节信息较多，而尺度较小的图像由于高斯平滑和减抽样操作使得其更能反映出局部的图像背景信息，因而将尺度较大的图像和尺度较小的图像进行跨尺度减操作（across-scale），能得到局部中心和周边背景信息的反差信息。跨尺度减的具体算法如下：通过将代表周边背景信息的较小尺度的图像进行线性插值，使之与代表中心信息的较大尺度的图像具有相同大小，然后进行点对点的减操作，即中央周边差操作，这样的跨尺度减操作使用符号Θ表示。对每个特征通道的高斯金字塔进行中央周边差操作，依次检测图像中的特征不联系性，即中心和周边背景信息反差对比强烈的区域，很好地模仿了视网膜上探测突出目标的生理机制。在模型中，代表中心信息的图像尺度c取c∈{2,3,4}，代表周边背景信息的图像尺度s取s=c+δ，其中δ∈{3,4}，从而在每个特征通道里可以产生6个尺度对，即{2-5,2-6,3-6,3-7,4-7,4-8}，在每个特征通道可以产生6张中央周边差结果图，所以7个通道共有42张中央周边差图，中央周边差结果图在该模型中被称为特征图（Feature Map）。

2、早期视觉特征提取

①、亮度提取，用r，g，b分别表示图像红、绿、蓝三个通道的值，因此亮度I可以表示为I=（r+g+b）/3，由于输入图片是9个尺度的高斯金字塔图片，所以I也对于9个尺度高斯金子塔亮度图。

②、颜色提取，r，g，b通道采用I进行归一化以从亮度中解耦色调。产生了四个宽调谐（broadly-tuned）的颜色通道，从这些颜色通道中产生四个高斯金字塔R,G,B,Y。

R=r-(g+b)/2,G=g-(r+b)/2,B=b-(r+g)/2,Y=(r+g)/2-|r-g|/2-b,如果为负数则设为0。

③、方向特征，方向特征主要是使用Gabor滤波器对图像的亮度特征在0°，45°，90°，135°四个主要方向上进行滤波得到的。因此，Gabor滤波器可以很好地模拟人类视皮层简单细胞的信号处理特点，其结果直接体现了图像局部方向特征的信息。在Gabor滤波器某个方向的滤波结果中，给定区域的能量可以反映该区域灰度图在该方向的特征是否强烈，即反映了区域内的该方向的直线或者规则纹理的朝向特征是否明显。因此方向特征的提取可以直接使用几个方向的Gabor滤波器进行滤波获得。

第一组特征图集：中心细尺度c和周围粗尺度s之间的中心围绕差值产生特征图。模拟灵长类动物的中心围绕机制，所有类型的敏感性是在六个I(c,s)图（六尺度）中同时计算的：

I(c,s)=|I(c)ΘI(s)| c∈（2,3,4）,s=s+δ,δ∈（3,4）

第二组特征图集：模拟皮层中的“颜色双竞争” 系统表示：在接受野中心，神经元被一种颜色激活而禁止另外一种颜色，而在周围区域则是相反的。在主视觉皮层中，红/绿，绿/红，蓝/黄，黄/蓝颜色对都存在这种空间和色彩竞争关系。因此，产生RG(c,s)和BY(c,s)特征图来反映双竞争关系。

RG(c,s)=|(R(c)-G(c))Θ(G(s)-R(s))|

BY(c,s)=|(B(c)-Y(c))Θ(Y(s)-B(s))|

第三组特征图集：采用方向Gabor金字塔得到局部方向信息，采用4角度和6尺度来表示角度和方向。最后得到方向特征图：O(c,s,θ)=|O(c,θ)ΘO(s,θ)|;

总体来说，计算出来了42个特征图：6个亮度图，12个颜色图和24个方向图。

3、显著性图

显著性图的目的是通过显著性的空间分布来表示醒目度（conspicuity-saliency）或显著度：在视野中每个位置用一个定量向量表示，引导注意位置的选择。通过一个动态神经网络模型，特征图的组合可以向显著性图提供BU输入。对不同的的特征图表示了不可比较的模态的先验信息，有不同的动态范围和提取机制。42个特征图结合时，在一些特征图中表现非常强的显著目标可能被其它更多的特征图的噪声或不显著的目标所掩盖。在缺少TD监督的情况下，采用一个归一化操作算子N(.)，整体提升那些有部分强刺激峰值（醒目位置）的特征图，而整体抑制那些包含大量可比峰值响应。

归一化计算方法：

①、将所有图的取值固定为[0,M]，消除依赖于模态的幅值差异；

②、计算图中最大值M和其他所有局部极值的平均值m；

③、整幅图像乘以（M-m）* （M-m）。

归一化算子模拟了皮层旁侧禁止机制：通过特定的生理连接，邻域中相似的特征互相禁止。通过跨尺度相加，特征图被结合成3个醒目度图（conspicuity maps），I表示灰度，C表示颜色，O表示方向，三个醒目性图经过归一化后，求和，作为显著性图的最终输入S。任何时候，显著性图（SM）的最大值定义了最显著的图像位置，为注意焦点（FOA）定向

4、关注焦点的定位与转移（这部分没仔细了解，只是引用了其他学者的论文，如果有更详细的解答，不妨大家一起分享）

显著图是对场景中突出特征的反映，关注焦点在显著图的指导下定位到图像中的显著位置、并按照显著性降序在图像中进行跳转。通过胜者为王（Winner-take-all，WTA）神经竞争网络，能够使关注焦点自动选择定位到最显著特征所在的位置。当出现若干显著度相同的显著点时，关注焦点将依照Gestalt原则中的“临近原则”转向距离上一次关注焦点最近的显著位置。另外，模型引入禁止返回（Inhibition of return，IOR）的神经机制来避免重复关注同一显著位置，使得关注焦点可以顺利从最显著转移到次显著位置。禁止返回机制从工程应用角度来讲是合理的，可以节省计算资源和时间；但是从心理学角度出发，禁止返回的神经机制持续时间不会很长，可能注意力在人脑的控制下会重新返回已经关注过的区域，这与任务的复杂程度、场景理解程度有关。以下为Itti模型对一张自然场景图像进行视觉注意的过程。