图像处理中不适定问题(ill posed problem)或称为反问题(inverse Problem)的研究从20世纪末成为国际上的热点问题,成为现代数学家、计算机视觉和图像处理学者广为关注的研究领域。数学和物理上的反问题的研究由来已久,法国数学家阿达马早在19世纪就提出了不适定问题的概念:称一个数学物理定解问题的解存在、唯一并且稳定的则称该问题是适定的(Well Posed).如果不满足适定性概念中的上述判据中的一条或几条,称该问题是不适定的。典型的图像处理不适定问题包括:图像去噪(Image De-nosing),图像恢复(Image Restorsion),图像放大(Image Zooming),图像修补(Image Inpainting),图像去马赛克(image Demosaicing),图像超分辨(Image super-resolution )等。
迄今为止,人们已经提出许多方法来解决图像处理中的不适定性。但是如何进一步刻画图像的边缘、纹理和角形等图像中重要视觉几何结构,提高该类方法在噪声抑制基础上有效保持结构和纹理能力是有待深入研究的问题。
1 不适定图像处理问题的国内外研究现状评述
由于图像处理中的反问题往往是不适定的。解决不适定性的有效途径是在图像处理中引入关于图像的先验信息。因此图像的先验模型对于图像反问题和其它计算机视觉还是图像处理问题至关重要。对于图像的先验模型的研究,研究者们从多个角度进行研究,其代表主要有“统计方法”和“正则化几何建模方法”,“稀疏表示方法”三种主流方法,而最近兴起
的图像形态分量分析(MCA)方法吸引了大批国内外研究者的广泛关注。
1.1 正则化几何模型日新月异
关于自然图像建模的“正则化几何方法”是最近几年热点讨论的主题。其中一类方法是利用偏微分方程理论建立图像处理模型,目前的发展趋势是从有选择性非线性扩散的角度设计各类低阶、高阶或者低阶与高阶综合的偏微分方程, 或者从实扩散向复扩散推广, 从空域向空频域相结合以及不同奇异性结构的综合处理[1]。
另一类方法是基于能量泛函最优的变分方法。1992年,Rudin-Osher-Fatemi 提出图像 能被分解为一个属于有界变差空间 的分量 和一个属于 的分量 的全变差模型 [2]。根据国际上及本人的研究表明:ROF模型模型较好地刻画了图像中视觉重要边缘结构,但不能描述纹理信息。2001年Meyer提出了振荡模式分解理论[2]:他认为振荡分量可以表示为某个向量函数的散度形式,而振荡分量可以属于3个可能的函数空间。首先引入有界变差(bounded variational , BV) 空间的一个近似对偶空间来表征图像的振荡分量;Meyer进一步指出John-Nirenberg的有界均值振荡空间和齐性Besov空间 都是振荡分量比较合适的函数空间,由此导出了将图像分解的(BV,G)模型,(BV,F)模型和(BV,E)模型。Meyer从理论上基本解决了振荡分量的理论框架,成为纹理等振荡模式分解的奠基性工作,但是原始模型比较难计算。后来的学者大都在Meyer工作的基础上展开工作。Vese-Osher提出将振荡分量建模为 的向量场的散度来逼近(BV,G)模型[3],实质上是将G空间 近似为负Soblev空间 [4]。L.Lieu和L.Vese进一步推广到分数阶负Soblev空间 [5]。Aujol,Chamboll等人定义了G-空间中的一个子空间 ,并根据Chamboll早期提出的ROF模型的投影算法的基础上,提出图像的振荡分量是在该子空间上的投影分量,由此提出了著名的BV空间半范 + G空间范数 + L2 范数约束优化的A2BC模型及子空间投影算法 [6-7]。J.B.Garnet,T.M.Le,Y.Meyer, L.A.Vese提出更一般的齐性Besov空间 来刻画振荡分量 [8]。最近,J.Aujol, A.Chamboll分别对TV范数、G范数、F范数、E范数,L 2 范数对图像的卡通图像、纹理分量、高斯噪声进行数理统计和相关性分析,提出了分别运用TV范数、G范数和E范数分别来约束图像的卡通分量 、纹理分量 和噪声分量 的三分量图像分解模型[9]。2007年,G.Gilboa 和S. Osher受提出了非局部化G-空间的概念,并概括性的初步提出了非局部ROF模型、非局部Meyer模型、非局部ROF+L1模型[10],从理论上提供了图像先验模型研究的新思路。但综合目前研究来看,变分方法的主要不足是对于纹理和噪声的刻画还不够精细。
1.2 稀疏表示方兴未艾
图像的稀疏表示问题最早源于“有效编码假说”。Attneave最先提出:视觉感知的目标就是产生一个外部输入信号的有效表示。在神经生物学领域Barlow基于信息论提出了“有效编码假设”,认为初级视皮层神经细胞的主要功能就是去除输入刺激的统计相关性[11]。“有效编码假设”被提出以后,很多研究人员根据它的思想提出了不同的理论。主要思路分为两大类。直接方法是机理测试方法,即从生物机理上,在自然图像刺激条件下检测神经细胞的响应特性。著名的工作如:2001年在《Nature》上发表的研究结果表明,在冗余性测度和自然刺激条件下一组视网膜神经节对外界刺激独立编码[12];2000年在《Science》上发表了类似的成果[13]:通过记录短尾猿 V1 区神经细胞在开放的自然场景和模拟自然场景条件下的神经细胞响应,验证了视皮层(V1 区)神经细胞用稀疏编码有效表示自然场景,稀疏编码用最小冗余度传递信息。另外一个替代的方法是模型仿真方法,即利用自然图像的统计特性,建立模型模拟早期视觉处理系统的处理机制。例如Olshausen 和 Field[14] 提出了稀疏编码模型,稀疏编码理论表明,通过寻找自然图像的稀疏编码表示,该神经网络可以学习得到类似于简单细胞感受野的结构。Bell提出了基于信息最大化的无监督算法,通过度量“因子”的联合信息熵并且使之最大化,扩展了独立成分分析(ICA)方法,成功地构建有效编码模型并得到了与上面类似的结果[15]。Hyvarinen 更进一步,应用一个两层的稀疏编码模型构造出类似于复杂细胞响应特性的基函数,而且基函数集合形成一个有规律的拓扑结构[16]。这部分表明有效编码假设也可适用于视觉系统高级区域神经细胞的处理过程。
目前关于图像稀疏表示系统的研究大体上沿着两条主线展开。其中一条是沿着多尺度几何分析理论。研究者认为图像的非平稳性和非高斯性,很难用线性算法进行处理,而应该建立合适的能够处理边缘到纹理各层面几何结构的图像模型;二维图像中的性状奇异性边缘和3-D 图像中丝状物(filaments) 和管状物(tubes)几何特征不能被各向同性的“方块基”(如小波基)表示,而最优或者 “最稀疏”的函数表示方法应该由各向异性的“锲形基”表征。因此以Ridgelet、Curvelet、Bandlet, Contourlet变换为代表的多尺度几何分析[16-22]理论成为图像稀疏表示的有效途径。图2.1.1(a)给出了二维可分离小波在不同分辨率下逼近曲线的过程,随着分辨率升高,尺度变细,最终表现为使用众多的“点”来逼近曲线。
与小波相比,contourlet不仅具有小波的多分辨率特性和时频局部化特性,还具有很好的方向性和各向异性,即在尺度j时,小波基的支撑域边长近似为 ,而Contourlet的在该尺度下的基函数支撑域的纵横比可以任意选择。图2.1.1(b)为用Contourlet基函数的支撑域来逼近曲线的过程,由于它的基函数的支撑域表现为“长方形”,因而是一种更为有效稀疏的表示法。与二维可分离小波基函数的方向支撑域的各向同性不同,Contourlet基的“长方形”支撑域表现出来的是各向异性(anisotropy)的特点。
上述稀疏表示方法都是采用“单一基”,另外一条图像稀疏表示的途径是:基函数被称之为原子库的过完备的冗余系统取代。Mallat和Zhang于1993年首先提出了信号在过完备库(over-complete dictionary)上分解的思想[23]. 通过信号在过完备库上的分解,用来表示信号的基可自适应地根据信号本身的特点灵活选取以得到信号非常稀疏的表示. 后来人们提出了诸如基追踪算法、匹配追踪算法(MP)、正交匹配追踪算法(OMP)、混合匹配追踪算法(HMP)及许多变种。涉及的原子包括多尺度Gabor函数,各向异性的精细原子,小波和正弦函数的级联[24-15]等,并通过训练方法获得结构和纹理分量稀疏表示字典[26-28] 。
目前图像稀疏表示的研究也引起国内众多研究者的关注。中科院杨谦、汪云九等人,中科院计算所史忠植研究员,西安电子科技大学的焦李成教授、华南理工大学谢胜利教授,西南交通大学尹忠科教授等,南京理工大学韦志辉教授,肖亮博士等纷纷展开了稀疏表示的相关问题的研究。 目前图像稀疏表示的研究成为近3年国内众多研究者关注的热点问题,根据<<中国期刊全文数据库>>的检索来看,在2004年之前几乎没有相关报道,而从2004年1月至2008年2月,中国期刊发表的图像稀疏表示与多尺度几和分析应用方面的论文达到187篇,其中关于Ridgelet 56篇,关于Contourlet 63篇,关于 Curvelet 34篇,关于过完备稀疏表示34篇。西安电子科技大学的焦李成教授、华南理工大学谢胜利教授,西安交通大学尹忠科教授、国防科技大学王正明、教授及课题组成员等纷纷展开了基于稀疏表示的相关应用问题的研究[29-33]。本文作者在基于多尺度几何分析的图像增强、去噪、融合、边缘检测、感知压缩和数字水印等展开了相关应用研究,研究结果表明,基于稀疏表示的形态分量分解理论能够很好的捕获图像的几何特征,在图像建模和处理方面具有先天优势。但是综观国内的这些研究还与国外原创性成果具有很大差距。特别在稀疏表示字典的构造、高效稀疏分解算法、稀疏性重建等层面均有大量工作可做。
1.3 形态分量分析暂露头角
MCA方法是国际著名学者J.-L. Starck, M. Elad, D.L. Donoho 在2004年提出的一种将图像分解为 “几何结构”、“纹理”、“噪声”的形态分量分解方法[34]。该方法与混叠信号盲分离在本质上近乎相同,和独立分量分析(ICA)具有紧密联系。在MCA提出之前,图像分解的研究如火如荼。主要包括“基于稀疏表示的图像分解”和“基于变分方法的图像分解”。MCA方法较好的结合了变分方法和稀疏表示方法两类图像分解的优点,为不适定图像处理问题提供了良好的处理机制。
首先从关于图像形态分量分解的变分方法来看,国际上研究的研究朝着对图像结构和纹理等形态成分刻画更精细、计算更简单的方向发展。图像分解的(BV,G)模型,(BV,F)模型和(BV,E)模型在本质上就是一种形态分量分析方法。
与基于变分方法的图像分解处理思路不同,J.L.Stack,M.Elad 和 D.L.Donoho的MCA框架中,一个重要的假设是图像的几何结构和纹理分量在某个特定的基库或过完备子字典下是类内稀疏的,而各形态分量稀疏表示的基库或过完备子字典之间具有不相干性。通过关于结构分量和纹理分量的分类稀疏表示稀疏的强稀疏性(l0 范数或l1 范数度量)达到图像形态分量的有效分离。由于目前所涉及的稀疏表示系统有三类:正交系统(如DCT,DWT);冗余系统(如Curvelet, Contoulet);过完备字典(如AR-Gauss混合字典)。随着稀疏表示理论的发展,通过不同的分类稀疏表示字典、稀疏性度量和正则化方法,可以导出不同的图像形态分量分析算法[35]。之后学者们对MCA中形态成分稀疏性和多样性[36]、自适应投影阈值选取[37]等问题作了研究,并推广到多通道情形[38] 。
1.4 统计模型经久不衰
关于自然图像“统计建模方法”的研究由来已久。早期的研究工作,很大程度上受David Field在20世纪80年代中期的一个重要发现所推动:自然图像的滤波器响应总是呈现出较大的峰度的统计性质[39]。经典小波分析之所以在信号和图像处理中取得重大成功,一个比较重要的因素是对小波变换域统计模型的研究取得重大进展,主要包括小波域的MRF模型,小波域隐马尔科夫模型和分层隐马尔科夫模型等。随着多尺度几何分析的兴起,人们对于Ridgelet、Curvelet、Bandlet, Contourlet变换域的统计模型相当关注。事实上,稀疏表示系数的直方图的峰度要远远大于3,呈现明显的非高斯性,这表明非高斯性蕴含图像的本质特性。
例如,对Cameraman图像的Contourlet系数进行分析。观察上面的分布可以发现,Contourlet系数呈现明显的重尾分布。考察直方图的峰度(Kurtosis)
经计算,峰度值远远大于典型的高斯分布Kurtosis值(大约为3)。
许多单变量先验模型比如广义高斯模型、学生t-distribution模型已经被成功地用于自然图像的小波系数的这种非高斯统计特性。最近,学者们开始关注自然图像滤波器响应的联合统计行为。Zhu S.C较为全面的论述了自然图像视觉模式的四种主流的统计研究方法,并从信号的稀疏表示出发论述了包括多个Markov随机场模型及其变种[40]。焦李成等比较研究了多尺度变换域包括隐马尔科夫树(HMT)、背景隐马尔科夫模型(CHMM)等在内的10种统计模型[41]。
[1] A.Buades, B.Coll, J.M.Morel, A review of image denoising algorithms, with a new one. Multiscale Modeling and Simulation, 2005,4(2) 490-530.
[2] L. Rudin, S. Osher, E. Fatemi, Nonlinear total variation based noise removal algorithms, Physica D, 1992,60:259-268.
[3] Y. Meyer, Oscillating Patterns in Image Processing and Nonlinear Evolution Equations, University.Lecture Series, Vol. 22, Amer. Math. Soc., 2001.
[4] L. A. Vese, and S. J. Osher, Image Denoising and Decomposition with Total Variation Minimization and Oscillatory Functions. Journal of Mathematical Imaging and Vision, 2004, 20(1):7-18.
[5] S. Osher, A. Sol´e, and L. Vese, Image Decomposition and Restoration Using Total Variation Minimization and the H−1 Norm. Multiscale Modeling and Simulation, 2003, 1(3): 349-370.
[6] L. Lieu and L. Vese, Image Restoration and Decomposition via Bounded Variation and Negative Hilbert-Sobolev Spaces, UCLA CAM Report, 05-33, May 2005.
[7] J.F. Aujol, G. Aubert, L. Blanc-F´eraud, and A. Chambolle, Image decomposition into a bounded variation component and an oscillating component, Journal of Mathematical Imaging and Vision, 2005, 22(1): 71-88.
[8] J.B.Garnett, M.L.Triet, Y.Meyer, L.Vese. Image Decomposition using bounded variation generalized Homogeneous Besov spaces. 2005:UCLA CAM Report 05-57.
[9] J.F Aujol and A. Chambolle. Dual norms and image decomposition models. International Journal ofComputerVision,2005, 63(1):85-104.
[10] G.Giboa, S.Osher, Non-local linear image reconstruction and supervised segmentation. SIAM Multiscale Modeling and simulation, 2007, 6(2):595-630.
[11] H.B.Barlow, Possible principles underlying the transformation of sensory messages. Sensory Communication. Edited by W A Rosenbluth ( Cambridge, MA: MIT Press) 1961, 217-234.
[12] S. Nirenberg, S. M Carcieri, A .L Jacobs, P. E Latham. Retinal ganglion cell sact largely as independent encoders. Nature, 2001, 411: 698-701.
[13] William E. Vinje, Jack L. Gallant. Sparse Coding and Decorrelation in Primary Visual Cortex During Natural Vision. Science 18 February 2000:col. 287. no. 5456, pp. 1272-1276.
[14] Olshausen B. A, Field D. J. Sparse coding of sensory inputs. Current Opinion in Neurobiology. 2004, 14: 481-487.
[15] Bell A J and Sejnowski T J. The ‘independent components’ of natural scenes are edge filters. Vision Research. 1997,37: 3327-3338.
[16] Hyvarinen A, Hoyer P. O, A two-layer sparse coding model learns simple and complex cell receptive fields and topography from natural images. Vision Research. 2001, 41(18): 2413-2423.
[17] Candes E J. Ridgelet:theory and application. Ph.D dissertation, Stanford Univ.,1998.
[18] J.-L. Starck, E. J. Candès, and D. L. Donoho, “The curvelet transform for image denoising,” IEEE Trans. Image Processing, vol. 11, pp. 670–684,June 2002.
[19] Erwan Le Pennec and Stéphane Mallat, Sparse Geometric Image Representations With Bandelets. IEEE Trans. Image Processing, 2005, 14(4):423-438.
[20] Do.M.N,Vertterli.M. Framing pyramids. IEEE Transactions on Signal Processing, 2003,14(9):2329-2342.
[21] Do.M.N,Vertterli.M. The contourlet transform: an efficient directional multiresilution image representation. IEEE Transactions on Image Processing,2005,14(12):2091-2106.
[22] 焦李成,谭山. 图像的多尺度几何分析:回顾和展望. 电子学报,2003;31(12A):1975-1981.
[23] S. Mallat and Zhang, Matching pursuit with time-frequency dictionaries. IEEE Transactions on Signal Processing. 1993, 41(12): 3397–3415.
[24] M. F.Rosa V. Pierre Low-rate and flexible image coding with redundant representation. IEEE Transactions on Image Processing,2006,15(3):726-739.
[25] Xu Peng,Yao Dezhong Two dictionaries matching pursuit for sparse decomposition of signals
Signal Processing, 2006,86(11) : 3472-3480.
[26] M. Elad, A.Michal. Image denoising via sparse and redundant representations over learned dictionaries. IEEE Transactions on Image Processing, 2006, 15(12) : 3736-3745
[27] A.Michal, M.Elad,; B.Alfred. K-SVD: An algorithm for designing over-complete dictionaries for sparse representation. IEEE Transactions on Signal Processing, 2006, (54)11: 4311-4322
[28] G.Monaci, P. Jost, P.Vandergheynst, etal. Learning Multimodal Dictionaries. IEEE Transactions on Image Processing, 2007,16(9): 2273-2283.
[29] 何昭水,谢胜利,傅予力. 信号的稀疏性分析.自然科学进展,2006,16(9):1167-1173.
[30] 谢胜利,何昭水,傅予力.基于稀疏元分析的欠定混叠自适应盲分离方法.中国科学E,2007,37(8) : 1086~1098.
[31] 尹忠科等.利用FFT实现基于MP的信号稀疏分解,电子与信息学报.2006,28(4):614-618.
[32] 汪雄良,冉承其,王正明. 基于紧致字典的基追踪方法在SAR图像超分辨中的应用,电子学报,2006,34(6):997-1000.
[33] 杜小勇,胡卫东,郁文贤. 基于稀疏分量分析的逆合成孔径雷达成像技术.电子学报,2006,34(3):491-495.
[34] J. L. Starck, M. Elad, and D.L. Donoho. Redundant multiscale transforms and their application for morphological component analysis. Advances in Imaging and Electron Physics, 2004,132
[35] J.L. Starck, M. Elad, and D.L. Donoho.Image decomposition via the combination of sparse representation and a variational approach. IEEE Transaction on Image Processing, 2005,14(10):1570-1582.
[36] J.Bobin1, Y.Moudden1, J.Fadili2 and J-L.Starck. Morphological diversity and sparsity in blind source separation. IEEE Transactions on Image Processing, 2007, 16(1):2662 – 2674.
[37] J. Bobin, J.-L. Starck, J. Fadili, Y. Moudden, and D.L. Donoho. Morphological component analysis : an adaptive thresholding strategy. IEEE Transactions on Image Processing, 2007, 16(1):2675 - 2681.
[38] J. Mairal, M. Elad, G. Sapiro. Sparse representation for color image restoration. IEEE Transactions on Image Processing, 2008,17(1):53-68.
[39] B. A. Olshausen, D. J Field. Emergence of simple-cell receptive field properties by learning a sparse code for natural images. Nature, 1996, 381:607-609.
[40] Zhu S.C. Statistical Modeling and Conceptualization of Visual Patterns [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003, 25(6):691-712.
[41] 焦李成,孙强.多尺度变换域图象的感知与识别:进展和展望.计算机学报.2006,29(2):177-193.