Geometric Context from a Single

时间：2016-09-07 23:01:12 阅读：252 评论：0 收藏：0 [点我收藏+]

标签：

这个是Derek Hoiem 2005年的文章，也算是对3D信息的利用的一个开启。主页链接是http://www.cs.uiuc.edu/homes/dhoiem/

翻译呢是为了更好的理解，以后看的时候还可以回头直接看了，还可以随时添加笔记。

摘要

许多CV算法通过忽略图像潜在的3D几何结构而限制了他们的性能。我们展现了通过学习基于外观模型的几何类别来评估场景的粗糙几何属性，甚至是杂乱的自然场景。几何类别描述了图像区域关于相机的3D方向。我们提供了多重假设框架来鲁棒的评估从单张图像获得的场景结构，并且对每个几何标签获得了置信度。这些置信度可以被用于改善其他许多应用的性能。我们提供了在一组室外图像上对算法的一个全面的定量评估并且展示了在两个应用上的有效性：目标检测和自动单视图重建。

1.介绍

为何目标识别对于计算机来说如此困难，而对于人来说是老不费力的？原因看上去好像是识别是一种天生的全局流程。从稀少的，嘈杂的，局部的测量，我们的大脑能够创建一个清晰的视觉体验。当我们看到一个人在街角的时候，识别的简单动作可能不是仅仅由人形内部的像素（他们几乎不足够），而是还通过许多其他的线索：他站在哪个平面上，街道的3D透视图，观察者的方向等等。实际上，我们的整个视觉全景表现的就像是全局识别形态。

与此相反，大多数存在的CV系统试图仅仅使用局部信息来识别目标。例如，目前流行的目标检测算法[26,32,33]假设关于目标的得所有相关信息都包含在图像平面（通过全面的扫描所有位置和尺度来找到目标）的一个小窗口中。注意到典型的错误是通过这样的系统造成的——在树顶上找到人脸或者是键盘上找到车辆——不经常是贫乏目标模型的结果。当一个人只是通过一个小的窥视镜[31]看世界的时候，树顶上确实有脸。但是如果我们的最终目标是接近人类性能的级别，那么我们就必须开阔眼界并且把整幅图认为是全局识别任务的内容。

Torralba et al. [29,30]最近的工作已经在展示全局场景内容对于目标检测的重要性方面有了影响。低级特征也被用于得到场景的粗糙表示[1,25]。其他研究者使用随机场框架[16,2,11]以及其他表示[例如19]来开发局部上下文信息。不幸的是，上述方法都要对图像平面的目标间的上下文关系进行编码，并且不是在这些目标真正存在的3D世界中。这证明了一些限制，防止重要信息——尺度关系，平面方向，自由空间推理等等——曾经捕捉到的。显然，2D上下文是不足够的。

Figure 1: Geometriccontext from a single image: ground (green),sky (blue), verticalregions (red) subdivided into planar orientations (arrows) andnon-planar solid (’x’) and porous(’o’).

我们的最终目标是去发现一幅图像的3D“上下文的框架”，一种戏院舞台表示包含了主要的平面以及他们之间的关系。拥有这样一种表示会允许每个目标物理上的“放置”在框架内并且允许不同目标和3D环境存在推理。

本论文中，我们第一步是提出一个技术来评估室外图像的大平面的粗糙的方向来构建这个上下文框架。我们关注于室外图像是因为他们对人为强加的曼哈顿结构的缺少生成一个有趣并且具有挑战的问题。每个图像像素都被分类为要么属于地面平面的一部分，或者属于从地面竖起的平面，或者属于天空。从地面竖起的平面被分成二维平面面向相机的左，中，右以及非平面的表面，或者多孔（多叶植被或者网格线）或者固体（人或者树干）。我们还展示了目标检测的最初结果以及3D重建证明了这个几何信息的有效性。

我们提出了在统计学习角度的3D几何评估的问题。而不是试图明确计算图像的所有需要的几何参数，我们依赖其他图像（训练集）以一种隐式的方式通过识别来完成这种信息。但是与大多数识别方法不同的是，这个对语义类别建模，例如车辆，植被，道路或者建筑[21,6,14,28],我们的目标是对几何类别建模这依赖于与场景有关的物理目标的方向。例如，躺在地面上的一块三合板以及被木板支撑的三合板具有两种不同的几何类别。不像其他重建技术那样需要多个图像（例如[23]）,人工标记[4,17],或者非常特定的场景[9]，我们想要自动对单张图像上的一般室外场景评估3D几何属性。

几何上下文哲学上与David Marr[18]提出的

素描相似。然而，我们与它有几个重要的不同点：1)我们使用统计学习而不是单独的依赖几何或者光度方法（例如Shape-from-Xmethods）2）我们对场景几何的粗糙感感兴趣，而不是每个单独曲面的方向3）我们的几何上下文将要与原始图像数据一起使用，而不是它的替代品。

我们观察了使用google图片搜索的300个室外图像的采样的两个趋势，第一个是超过97%的图像像素属于三大主要几何类别之一：地面平面，大概与地面平面成直角的曲面以及天空。因此，我们小的几何类别集就足够来对大多数图像中的曲面提供一个准确描述。第二个观察是在大多数图像中，相机坐标轴与地面平面是粗糙的平行（在15度以内）。我们以这个粗糙校准作为假设，调解世界中心线索world-centriccues（例如材质）以及视图中心线索（例如透视图）。

我们主要的洞察是3D几何信息可以通过学习各种方向的曲面的基于外观的模型来从一张图中获得。我们提出一个框架它逐步建立场景的结构知识通过轮流的使用评估的场景结构来计算更复杂的图像特征以及使用这些更复杂的图像特征来获得更多的结构知识。此外，我们提供对我们算法中的不同设计选择的影响的一个全面分析并提供我们几何上下文有效性的证据。

2，获得有用的几何线索

图像上的一块理论上可以通过领域中任何方向的曲面来产生。为了决定哪个方向是最有可能的，我们需要使用所有可用的线索：材质，位置，纹理梯度，阴影，消失点等等。然而，许多的信息仅在当了解场景结构的时候才能提取出来。例如，对图像上差不多平行的线的交叉的了解经常对决定3D方向是非常有用的，但是仅当我们知道线是属于相同二位平面（例如，面对一个建筑或地面）时。我们的解决方案是逐步建立图像的结构知识：从像素到超像素到超像素的关联组（图2所示）。

我们的第一步是执行Felzenszwalb etal.[7]的过分割方法来获得“超像素”集合。每个超像素假设为对应一个单独的标签（超像素已经已知的遵守分割边界[24]）。不像朴素像素，超像素提供了允许我们计算一些基本的一阶统计的空间支持（例如颜色以及纹理）。然而，为了拥有评估大尺度平面的方向的希望，我们需要计算更多的复杂几何特征它必须已经在图像中相当大的区域上被评估了。我们如何找到这种区域？一种可能是使用标准分割算法(e.g.[27])来分割图像为小数量的同质区域。然而，因为在图像分割中使用的像素是本身非常基本和局部的，几乎没有可靠性获得对应场景中整个曲面的区域。

2.1 多重假设方法

理想上，我们会评估图像的所有可能分割来保证我们找到最好的一个。为了使这个易处理，我们采样对整个分布具有代表性的小数量的分割。因为从所有可能像素分割的采样是不可行的，我们通过对超像素集采样来进一步降低了搜索的组合复杂度。

我们的方法是基于简单线索做多重分割假设并且然后使用每个假设的增强的空间支持来更好地评估它的质量。不同的假设在分割以及图像不同区域产生的错误的数量不同(seeFigure 2c)。我们的挑战就是来决定假设的哪个部分可能是正确的并且准确的决定那些区域的标签。

2.2 特征

Table1列出了我们系统所使用的特征。颜色和纹理允许系统来隐式建模材质和3D方向间的关系。图像位置也提供了强3D几何线索（e.g.地面在天空下面）。我们之前的工作[12]提供了这些特征的进一步的原理阐述。

虽然一个平面（相对于观察者）的3D方向可以通过它的消失线[10]来完全决定，但是这种信息不能轻易的从相关的非结构室外图像提取。通过计算直线(G1-G2)和他们的在图像中的交叉(G3-G7) 的统计，我们的系统获取了平面的消失点的信息而不用明确的计算它们。我们的系统使用方法[15]找到图像中的长的，直的边界。根据方向(8orientations) 以及距离(2 thresholds, at 1.5 and 5times the image size)，几乎平行的直线(within π/8radians)的交叉点被放射状的从图像中心放入箱中。当计算G1-G7事，我们通过长度来加重要性给直线，来改善对极端值的鲁棒性。纹理梯度(G8)也可以提供方向线索，甚至从自然平面而不是平行线。

3.学习分割以及标签

我们收集了300张室外图像集代表用户选择在互联网上放置的公共可用的图像。这些图像经常是高混乱的并且跨度多种自然，郊区，城市场景。图4展示了20张图像。每张图都是过分割的，并且每个分割都根据它的几何类别给予一个实际地面标签。总共，大概150000超像素被标签。我们使用50张图像来训练分割算法。剩下的250张图来训练以及评估全体系统使用5倍交叉验证。为了对比我们使我们的数据库公共可用（Projectpage: http://www.cs.cmu.edu/∼dhoiem/projects/context/）。

3.1 生成分割

我们想要获得多图像的多个分割形成几何均匀区域（一个区域是均匀的如果它的每一个超像素都有相同的标签，区域需要不是连续的）。我们对分割使用学习方法，评估两个超像素属于相同区域的可能性。我们通过改变区域的数量以及算法的初始化来生成多分割。

理想上，对于给定数量的区域，我们会最大化联合似然这样所有区域都是均匀的。不幸的是，找到优化方案是棘手的；反而，我们提出一个简单的贪婪算法基于超像素间的成对亲密关系。我们的算法具有四个步骤：1）随机整理超像素；2）赋值前nr（r是下标）个超像素到不同的区域；3）迭代的赋值每个剩下的超像素基于一个学习的成对亲密关系函数（看下面）；4）重复步骤3几次。我们希望我们的区域尽可能的大（为了允许好特征评估）同时仍然是均匀标记的。我们运行这个算法使用不同的区域数量（nr∈{3,4, 5, 7, 9, 11, 15, 20, 25} 在我们的实现中）。

训练。我们从我们的训练集中采样成对的相同标记的以及不同标记的超像素(2,500 each)。我们然后基于它们特征值的绝对差：P(yi= yj ||xi ? xj|)来评估两个超像素具有相同标签的可能性。我们使用逻辑回归形式的Adaboost[3]它具有基于朴素密度估计的弱分类器：

其中nf 是特征数量，每个弱分类器中的似然函数都使用在第m个加权分布上的核密度估计[5]来获得。

我们赋值一个超像素到区域（上面的步骤3）随着区域中的超像素以及被增加的超像素之间的最大平均成对log似然。

在一个实验中，对比我们的分割与地面真值，使用简单分组方法，40%的区域被均匀标记（考虑小部分人工标记错误，我们允许上升到5%的区域的像素与大多数普通标签不同），89%的超像素对于主要类别至少都在一个均匀区域中，61%的垂直超像素都至少在子类别的一个均匀区域中。一个从未在均匀区域中的超像素可以仍然被正确的标记，如果标签描述区域最好，那么超像素的标签就是这个标签。

3.2 几何标签

我们计算每个区域（Table1）的特征并且评估所有超像素具有相同标签（均匀似然）的可能性并且给出每个几何标签（标签似然）的置信度。在形成多分割假设之后，每个超像素会是几个区域的成员，每个假设一个。我们决定超像素标签置信度通过求平均包含它的区域的标签似然，通过均匀似然加权：

其中C是标签置信度，yi是超像素标签，v是可能得标签值，x是图像数据，nh是假设数量，hji定义了包含第j个假设的第i个超像素的区域，yj是区域标签（如果去假设有一个单独的最好的假设，方程式2具有边缘化一组可能假设的解释）。对于一个特定区域的标签似然总和以及包含所有特定像素的所有区域的均匀似然总和都被标准化为总和为1。主要的几何标签以及垂直子类标签被独立的评估（子类别标签被赋值给整个图像但是只被应用在垂直区域）。

训练。我们首先使用学习的成对似然来为每个训练图像创建几个分割假设。然后标记每个区域使用主要几何类别之一或混合当区域包含多类别并且标记垂直区域作为子类别的一个或者混合。每个标签似然函数然后被学习在one-vs.-rest样式，以及均匀似然函数通过分类混合vs均匀标记来学习。标签和均匀似然函数两个都被评估使用逻辑回归版本的Adaboost[3]带着基于8节点决策树[8]的弱学习器。决策树形成好的弱学习器，因为他们提供自动的特征选择并且特征的联合统计的限制模型。因为大区域的正确分类比小区域重要很多，加权分布被初始化为图像面积跨度的百分比的比例。

4.结果

我们测试我们的系统在250张图像上使用5倍交叉验证。我们注意到交叉验证不被用于选择任何分类参数。准确度通过具有正确标记，平均值在测试图之上的图像像素的百分比来测量。去我们的网站上获得250张输入图像，地面实况标记以及结果。

4.1 几何分类

图4展示了在图像采样上的我们系统的标记结果。表2和3给出了主要几何类别(地面，垂直，天空)的混淆矩阵以及垂直子类（坐面向平面，正面平面，右面向平面）。分类的总体准确度对于主几何类别和垂直子类分别是86%和52%（表4是与其他简单方法的基准线对比）。处理时间对于640x480图像大概30秒使用2.13GHzAthalon处理器以及非优化的MATLAB代码。

就像结果展示的那样，垂直结构子类比主几何类别决定要困难的多。这主要是归因于歧义在赋值地面真值标签，类别数量大以及有用线索（例如材质，位置对于决定子类没有什么用处）的减少。我们的标签结果（图4和5），然而，展示了系统的许多错分类也是合理的。

4.2 结构评估的重要性

之前，我们提出了一个多重假设方法来在决定几何类别标签之前鲁棒的评估潜在场景的结构。为了证明这个中间结构评估是值得的，我们测试了系统的准确性当分类基于只有类别优先（CPrior），只有像素位置(Loc)，只有像素级别的颜色和纹理(Pixel)，所在超像素级别的像素(SPixel)，一个单独(nr=9)分割假设(OneH)，以及使用我们的整个多重假设框架(MultiH)。我们的结果(Table4)展示了算法的复杂度的每个增加都在分类准确度上提供了明显的增加。

我们还测试了当中间场景结构由根据真实地面标签分割超像素来决定时的分类器的准确度。这个实验给了我们一种直觉，我们的系统会表现的怎样如果我们的分组以及假设评估算法是完美的。在理想分割下，对于主要几何类别的准确度是95%，垂直子类（从质量上说，子类标签包含很少的错误，歧义比如当“左”变成了“中”以及当“平面”变成了“非平面”膨胀了错误评估）的准确度为66%。因此，大的收获可能通过改善我们的简单分组算法来获得，但是大部分的工作还是在定义更好地特征以及更好地分类器上。

4.3 线索的重要性

我们的系统使用一个各种各样的统计涉及到位置，形状，颜色，纹理以及3D几何信息。我们分析每种信息的有用性通过从特征集中移除给定类型的所有特征，并且重新训练以及测试系统。表5展示了结果，展示了这样的信息关于每种特征是重要的，但是非关键的。这些结果显示了位置在系统的性能中有重要性，但是我们的实验在结果评估中显示位置需要用其他线索补充。颜色，纹理以及位置特征影响分割以及标记。几何特征只影响标记。图6从质量上展示了使用所有可用的线索的重要性。

5。应用

我们已经展示了我们能够从图像中提取几何信息。我们现在在两个领域中展示这中信息的有用性：目标检测以及自动单视图重建。

5.1 目标检测

我们本实验的目标是展示我们的上下文信息改进现存目标检测系统的性能，即使被朴素应用。我们训练以及测试多方向车辆检测使用PASCAL[22]训练以及验证移除灰度图的集合。我们使用从Murphyetal.[20]的局部检测器，它采用GentleBoost来形成基于碎片模板的分类器。我们训练两个版本的系统，一个使用500局部特征（templates）以及一个从几何上下文中增加40新的上下文特征。上下文特征是目标窗口区域（中间）的平均置信度，在目标上以及下的窗口的置信度，以及对每一个3中主要几何类别和5中子类的中心之上和中心之下的差值。我们的结果（图3）展示了几何上下文信息相当的改进了检测性能。当训练时，首先5个特征中的4个被boosting算法选择是上下文的。最有力（首先选择的）的特征表示车辆比它们直接下面的区域更不像到地面（lessground-like）。图7显示了两个特定的改进的例子。

我们在实验中提出的几何上下文非常简单。未来工作中，我们打算使用我们的几何信息来创建3D上下文框架，考虑图像中关于目标的有力的推论。我们相信在CV算法提供这样的能力会导致大幅度的更好地系统。

5.2 自动单视图重建

我们的主要几何类别标签以及水平评估是足够的来重建许多室外场景的粗糙尺度的3D模型。通过拟合图像中的地面垂直的交叉点，我们能够从地面“弹出”垂直平面。图8展示了MertonCollege图像[17]以及我们系统自动产生的从上下文映射的3D模型的两个新颖视图。如何创建这些模型的细节以及增加的结果在我们同伴图形论文[12]中提供了。目标分割以及相机的内在以及外在参数的评估会是对许多场景的自动创建测量的3D模型是可行的。除了明显的图像应用，我们相信这种模型会提供极大的价值信息给其他CV应用。

6 结论

我们以及向前采取了重要的步骤来使用3D世界中的上下文分析图像中的目标。我们的结果展示了这种上下文可以被评估以及有用的应用，甚至在缺乏人工强加的结构的室外图像中。我们的上下文模型可以通过包含增加的几何线索(e.g.symmetry[13])，评估相机参数或者改进分类技术来改进。另外，大多数研究还在寻找最好的方式来应用这个上下文来改进其他CV应用。

References

[1] B. Bose and W. E. L. Grimson, “Improving objectclassification in far-field video,” in Proc. CVPR, 2004.

[2] P. Carbonetto, N. de Freitas, and K. Barnard, “Astatistical model for general contextual object recognition,” inProc.ECCV, 2004.

[3] M. Collins, R. Schapire, and Y. Singer, “Logisticregression, adaboost and bregman distances,” Machine Learning,vol.48, no. 1-3, 2002.

[4] A. Criminisi, I. Reid, and A. Zisserman, “Single viewmetrology,” IJCV, vol. 40, no. 2, 2000.

[5] R. Duda, P. Hart, and D. Stork, PatternClassification.Wiley-Interscience Publication, 2000.

[6] M. R. Everingham, B. T. Thomas, and T. Troscianko,“Headmounted mobility aid for low vision using scene classificationtechniques,” Int. J. of Virt. Reality, vol. 3, no. 4, 1999.

[7] P. Felzenszwalb and D. Huttenlocher, “Efficientgraph-based image segmentation,” IJCV, vol. 59, no. 2, 2004.

[8] J. Friedman, T. Hastie, and R. Tibshirani, “Additivelogistic regression: a statistical view of boosting,” Annals ofStatistics, vol. 28, no. 2, 2000.

[9] F. Han and S.-C. Zhu, “Bayesian reconstruction of 3dshapes and scenes from a single image,” in Int. Work. onHigherLevel Know. in 3D Modeling and Motion Anal., 2003.

[10] R. I. Hartley and A. Zisserman, Multiple View Geometry inComputer Vision, 2nd ed. Cambridge University Press,2004.

[11] X. He, R. S. Zemel, and M.′A. Carreira-Perpi? n′ an,“Multiscale conditional random fields for image labeling.” inProc.CVPR, 2004.

[12] D. Hoiem, A. A. Efros, and M. Hebert, “Automatic photopop-up,” in ACM SIGGRAPH 2005.

[13] W. Hong, A. Y. Yang, K. Huang, and Y. Ma, “On symmetryand multiple-view geometry: Structure, pose, and calibration from asingle image,” IJCV, vol. 60, no. 3, 2004.

[14] S. Konishi and A. Yuille, “Statistical cues for domainspecific image segmentation with performance analysis.” inProc.CVPR, 2000.

[15] J. Kosecka and W. Zhang, “Video compass,” in Proc.ECCV.Springer-Verlag, 2002.

[16] S. Kumar and M. Hebert, “Discriminative random fields: Adiscriminative framework for contextual interaction inclassification,” in Proc. ICCV. IEEE Comp. Society, 2003.

[17] D. Liebowitz, A. Criminisi, and A. Zisserman, “Creatingarchitectural models from images,” in Proc. EuroGraphics,vol. 18,1999.

[18] D. Marr, Vision. San Francisco: Freeman, 1982.

[19] K. Mikolajczyk, C. Schmid, and A. Zisserman, “Humandetection based on a probabilistic assembly of robust partdetectors,” in Proc. ECCV. Springer-Verlag, May 2004.

[20] K. Murphy, A. Torralba, and W. T. Freeman, “Graphicalmodel for recognizing scenes and objects,” in Proc.NIPS,2003.

[21] Y. Ohta, Knowledge-Based Interpretation Of OutdoorNatural Color Scenes. Pitman, 1985.

[22] “The pascal object recognition database collection,”Website, PASCAL Challenges Workshop, 2005,http://www.pascal-network.org/challenges/VOC/.

[23] M. Pollefeys, R. Koch, and L. J. V. Gool,“Self-calibration and metric reconstruction in spite of varying andunknown internal camera parameters,” in Proc. ICCV, 1998.

[24] X. Ren and J. Malik, “Learning a classification model forsegmentation,” in Proc. ICCV, 2003.

[25] U. Rutishauser, D. Walther, C. Koch, and P. Perona, “Isbottom-up attention useful for object recognition,” in Proc.CVPR,2004.

[26] H. Schneiderman, “Learning a restricted bayesian networkfor object detection,” in Proc. CVPR, 2004.

[27] J. Shi and J. Malik, “Normalized cuts and imagesegmentation,” IEEE Trans. PAMI, vol. 22, no. 8, August 2000.

[28] A. Singhal, J. Luo, and W. Zhu, “Probabilistic spatialcontext models for scene content understanding.” in Proc.CVPR,2003.

[29] A. Torralba, “Contextual priming for objectdetection,”IJCV, vol. 53, no. 2, 2003.

[30] A. Torralba, K. P. Murphy, and W. T. Freeman, “Contextualmodels for object detection using boosted random fields,” in Proc.NIPS, 2004.

[31] A. Torralba and P. Sinha, “Detecting faces inimpoverished images,” Tech. Rep., 2001.

[32] P. Viola and M. J. Jones, “Robust real-time facedetection,”

IJCV, vol. 57, no. 2, 2004.

[33] P. Viola, M. J. Jones, and D. Snow, “Detectingpedestrians using patterns of motion and appearance,” in Proc.ICCV,2003.6

Geometric Context from a Single

标签：

原文地址：http://blog.csdn.net/u011100984/article/details/34851011

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行