1.3 拓扑纹理图像预处理的研究现状
1.3.1 保细节图像去噪研究现状
在图像滤波中,噪声的滤除和图像边缘细节的保护常常是相互矛盾的处理:噪声的平滑会破坏图像的边缘细节,而对于边缘的保护则又会削弱对噪声的抑制效果。因此,很多滤波算法的研究都致力于在这二者之间达到较好的平衡。
目前来说,以下几类滤波算法的研究获得了较大的关注。
①既能平滑噪声又能保护图像边缘细节的自适应滤波器:自适应滤波的基本思想是滤波器的参数可根据像素所在邻域的情况而自适应地选取,自适应滤波常常可被描述为加权均值滤波器的形式。
②基于图像建模和估计理论的滤波算法:这类方法的基本思想是提出一个图像的模型,如果这个模型的参数由一种鲁棒估计方法所估计出来,则窗口中心点的灰度值就可由估计出来的参数计算得到。这类方法中最简单的例子就是中值滤波器,以及很多中值滤波器的推广形式,如堆滤波器、排列滤波器、基于秩的秩选择滤波器等。
③基于模糊推理的自适应滤波算法:模糊概念最早是由Zadeh于1965年提出的。近年来,模糊集理论已经成功地应用于自动控制、模糊控制器、模式识别、图像处理等方面。在信息处理问题中,所含信息的不确定性越大,使用模糊技术就越容易收到令人满意的效果。很明显,因为人的视觉对于图像灰度级别是模糊而难以准确区分的,由此可以将一幅图像看成一个模糊集,引入模糊集理论的知识来进行图像处理,常常会收到很好的效果,而且在图像被噪声高度污染时,这种不确定性就增加了,应用模糊知识处理图像的效果就会更加明显。
④基于小波分析的方法:近年来,运用小波分解的方法除去图像中的噪声也很常见。其主要是对小波信号进行分解,在不同层次对噪声进行消除。
近十几年来,基于偏微分方程(PDE)和几何曲率流驱动扩散的图像分析与处理越来越成为研究关注的热点。PDE方法是一类比较精细的图像分析与处理方法,在图像分析与处理中具有重要作用。基于PDE方法的图像非线性滤波在保留图像的重要特征(边缘、纹理、线等)方面表现出优良的性能。各种非线性的图像滤波器的设计一直是图像处理领域的研究热点。特别地,基于扩散方程的各种图像去噪、恢复及多尺度分析为图像的非线性图像预处理注入了新的活力。
早在1983年,Witkin就尝试用原始图像与不同尺度的高斯核卷积所得的图像序列来描述尺度空间,之后,Koenderink和Hummel进一步指出,图像与具有不同尺度的高斯函数卷积等价于求解以图像为初值的热传导方程,实际上这种图像光滑的结果等同于扩散系数为常值的热传导方程的解,并且一般的具有各向同性扩散的低通滤波器的迭代光滑都可归结于求解热传导方程。
设u0为初始图像数据,选取L2范数度量,与u0相关的“尺度空间”分析归于求解方程:
式(1.1)的解为:u(x,t)=Gσ*u0,其中,是尺度为σ的高斯函数。
由于这种基于高斯核的图像光滑没有考虑到图像特征在空间上的分布,因此在光滑图像的同时也使得小尺度边缘细节信息丢失,进而导致边缘定位提取的错误。
鉴于此,Perona和Malik对式(1.1)进行了重要的改进,他们用非线性扩散方程替代原来的热传导方程:
式中,g:R+→R+为单调递减函数,且。函数g通常有形式gk(x)=e-kx或gk(x)=(1+kx2)-1。当g=g0时,式(1.2)退化为经典的高斯滤波模型;当g=gk(k<0)时,模型允许根据图像梯度模大小实现有选择的扩散磨光。
式(1.2)的主要思想是有条件地光滑图像函数:当|∇u|的值很大时,则扩散程度很小,这样就保持此处边界的信号性质,而当|∇u|很小时,则扩散程度很大,从而使函数在此处变得光滑。由于边缘具有较大的梯度模值|∇u|,因此g(|∇u|)取得较小值,这样模型在边缘处实行弱光滑以保护重要信息。函数g(|∇u|)的零交叉同时也是获得边缘图的重要方法之一。然而式(1.2)仍存在严重缺陷:一方面,当初始图像u0被噪声严重污染时,|∇u0|大幅度振荡,进而|∇u|大幅度振荡,理论上|∇u|发生剧烈振动的范围应是一个无界区域,这时有条件地光滑图像函数初值的方法用处不是很大,将会导致大量虚假边缘的出现;另一方面,不难证明式(1.2)只有在很强的条件下才能保证解的存在性和唯一性,也就是说式(1.2)的初值问题是不适定的。对于振荡问题,Perona和Malik使用低通滤波对图像实现光滑化,实践表明具有较好抑制噪声作用,但同时引入了新的参数。
在理论与实际应用中,减少参数数量和实现自适应滤波是快速、准确获取边缘信息的一个原则。为此,Catte提出了一个很重要的改进模型,该模型具有自适应选择光滑的能力:
式(1.3)避免了式(1.2)的许多缺点的同时,还继承了它的优点,例如式(1.3)的问题是适定的,且关于噪声是稳定的。因此,模型提高了滤噪处理能力,在一定程度上较好保护了重要的边缘信息。但是将式(1.3)展开:
由于拉普拉斯算子Δu的存在,在一些重要的边缘,特别是角点和铰接点等处,还是会表现出明显的圆滑化。
为了消除Δu对去噪效果的影响,Chen对式(1.4)进行了改进:
取噪声图像z为u的初值,并取零流边界。数值分析表明,与式(1.4)相比,式(1.5)较好地保护了图像边缘特征。然而,式(1.5)有时仍导致重要的边缘、角点等特征被过分磨光,因而达不到识别重要边缘特征的目的。
Alvarez对Perona-Malik模型的扩散系数做了改进,提出了基于曲率同质扩散方法,该模型具有选择光滑的特性,图像保边去噪的效果得到明显改进。他提出的模型为
简称为ALM模型。ALM模型使得函数u的水平曲线沿着垂直于∇u方向以g(|∇Gσ*u|)速度扩散。图像在边缘(梯度模较大)及两侧得到细微的弱光滑,而在内部同质区域得到快速充分的强光滑。
ALM模型是一种“纯粹”的各项异性扩散模型,设η是梯度方向的单位向量,ξ是正交于η的单位向量,则在ξη-坐标下,。由此可以看出,项使扩散仅在正交于梯度的方向ξ上发生,这就使得边缘能得到很好的保持。
从ALM模型中不难看出,非线性扩散去噪模型和几何曲率流演化方程之间的内在联系。曲线和曲面的演化运动用于图像的光滑和增强只有十余年的历史,ALM模型在几何曲线运动论上的解释是:把图像看成是一系列等强度的轮廓线,这些轮廓线沿法线方向以速度g(|∇G*u|)κ演化,在平滑图像的同时保持了边缘。之所以能够如此看待这个问题,其核心的思想是Osher和Sethian所提出的水平集方法。
由Osher和Sethian提出的水平集数值方法在图像处理中有很大影响,其基本思想是将变形的曲线、曲面或图像表示为高维超曲面的水平集,为数值计算提供较为精确的实现方法。水平集表示对计算机视觉和图像处理并不是全新的问题,它是数学形态学中的一个基本技术。给定一函数u:Ω⊂R2→R,定义与常数c有关的水平集为点集Sc={x∈Ω|u(x)=c}。c的连续变化产生u的全部水平集,类似于制图学中以高度值来标识的等高线。
由于ALM模型可以看成是一个偏微分方程的初值问题,因此可将曲线的运动和图像的光滑结合在一起,从而可以借助偏微分方程的基本理论和曲线运动的成果来解决图像处理的问题。函数g的不同取法构成不同的模型。当1g=时,就是曲线的平均曲率流。—般来说,曲线的平均曲率流用如下的方程来描述:
式中,为单位法线方向,F(κ)为曲线演化速度,C0是曲线的初始状态。其数值求解借助于Osher和Sethian所提出的水平集方法,用水平集方程来描述上式为:
式中,φ为符号距离函数,d0是(x,y)到C0的距离。如果(x,y)在C0的外部,则d0取正号,反之则取负号。为避免求解过程中的数值振荡和解的奇异,Osher和Sethian提出了需要满足的扩散条件。式(1.7)只有当满足一定扩散条件时,弱解存在且唯一。如果式(1.7)中F(k)=min(k,0),称为最小(Min)曲率流;F(k)=max(k,0)称为最大(Max)曲率流。关于曲线的平均曲率流具有如下属性:
①若F(k)=κ时,则任意形状的闭合曲线会收缩到一点;
②若F(k)=min(k,0)时,则曲线向内凹的部分将会向外运动,而向外凸的部分将会静止不动,直到形成一个全凸的曲线;
③若F(k)=max(k,0),则曲线向内凹的部分将会静止不动,而向外凸的部分将会向内运动,当形成一个全凸的曲线后,该曲线会继续向内运动,最终收缩为一点。
正是基于这样的分析,Malladi构造了最大/最小(Min/Max)曲率流,最终确定图像的凹凸性。
非线性扩散模型和变分模型也有着密切联系。Alvarez阐述了能量泛函E(u)=∫Ω|∇u|dx与发展方程之间的关系,而后者是Perona-Malik模型的特殊形式。用于图像去噪的最广泛变分模型是总变分(Total Variation)极小,极小化过程是通过偏微分方程或梯度下降流转化为—个泛函问题,并使用变分原理导出相应的欧拉-拉格朗日数值方程。第一个提出总变分模型的是Rudin和Osher,他们把图像作为一个二元函数,且认为这个函数大致是分片光滑的,一些重要数据(如边缘)是不连续的。有界变差空间中极小化的结果允许有不连续且是保护尖点边界的。
设u是一个定义在开集Ω⊂R2上的实函数,Rudin和Osher的原图像恢复模型为:
对式(1.9)的极小化可以通过梯度下降流计算得到,计算生成的非线性扩散方程为:
进一步,式(1.9)的一种推广形式为:
是满足Perona-Malik条件的扩散去噪模型。对式(1.9)的极小化可以通过梯度下降流计算得到,计算生成的非线性扩散方程为:
另一种泛函变分模型是基于Allen-Cahn模型的位相场去噪方法。Allen-Cahn方程源于相位分界线运动理论,在满足一定约束条件后,可以作为一种有效的面积保留MCM模型的水平集表示。该模型不仅可以提高模型对复杂纹线拓扑形变的自适应能力,而且还能有效地避免特征纹线形状的失真。本书在第2章将根据非局部Allen-Cahn水平集曲线运动方程和面积保留平均曲率模型的一致性属性,研究基于Allen-Cahn水平集的拓扑纹理图像去噪模型。
1.3.2 保色彩图像恢复研究现状
在多数情况下,图像恢复就是要消除观测图像中的模糊和噪声,以获得原始图像。模糊是指成像过程中的带宽缩减现象,它由诸多因素造成,如相机和景物间的相对运动、失焦等。噪声是指图像中包含的随机性干扰。对于上述影响,通常用线性模型描述:
Y=AX+n (1.13)
从观测图像Y中恢复原始图像X是一个不适定问题,因为它不能完全满足适定性的三个条件。不适定的定义是Hadamard在偏微分方程领域内给出的。如果一个问题的解是存在的、唯一的且连续地依赖于初始数据,那么它是适定的。而当不满足上述判据中的某一条或某几条时,它是不适定的。处理不适定问题要引入合适的先验约束,把它转换成适定的问题。
不适定问题的典型处理方法有:正则化(Regularization)和MRF(Markov Random Field)方法。Rudin的研究结果表明用总变分(Total Variation,TV)正则化恢复的图像边缘的效果非常显著。基于这一思想,Chan提出了TV盲解卷,其实验结果显示算法具有相当的鲁棒性,收敛速度很快,特别是对离散模糊收敛的速度更快,即使在严重噪声存在的情况下,也能恢复图像,因此是一种成功的正则化方法。正则化方法通过稳定子约束解空间,所获得的解是满足先验约束程度和与观测量相近程度的最佳折中,但不具有普适性:一是对解空间的限制太苛刻,如标准Tikhonov正则化中要求其有预先确定的某阶导数,以致在边缘等不连续处出现过分平滑;二是基于变分法解Euler-Lagrange方程的分析思想不能用来处理高层视觉中的问题,因为无法引入高层处理(如目标识别)中所需的约束项。
MRF方法建立在MRF模型和Bayes估计的基础上,MRF模型提供了为内容相关约束项建模的途径。结合实际观测图像,按统计决策和估计理论中的最优准则确定问题的解,能克服正则化方法的不足,并有以下几个鲜明特点:一是MRF模型与正则化有一致性,但比其适应性宽。Bertero证明了标准正则化是它的特殊情形,当观测噪声是加性独立同分布高斯噪声且采用平滑约束时,MAP(Maximum a Posteriori)解和正则化解是等价的,这是因为MRF模型包括了除平滑约束外的其他约束形式,适用于所有层次上的视觉问题。二是MRF模型能较好地处理不连续问题,即在待估量的先验模型中引入线过程。在连续情况下对估计量做平滑约束,而在不连续情况下不做任何约束。三是MRF模型的局部特性决定了可采用局部、大规模并行算法。四是MRF模型提供了适当的集成框架,可用于综合视觉中各类模块的处理结果以及用于数据融合等领域。五是MRF模型为多分辨率计算提供了基础。
Geman采用线过程技术来表示非平稳和Gibbs-MRF间的一致性,开创性地建立了关于重建图像及其边缘的联合先验分布模型。由于根据Bayes分析框架,后验分布通常也是一个MRF分布,因此MAP估计为后验能量函数最小值所对应的状态。他们还提出了一种基于Gibbs采样,即按后验条件分布每次只更新某一个位置的状态的模拟退火算法,并在理论上证明了它的收敛性。
Jeng 提出了混合高斯随机场(Compound Gaussian Random,CGM)先验模型,它是一种包含线过程的非平稳GMRF模型,避免了用GMRF模型时在图像边缘处的过分平滑,并给出了用模拟退火或ICM方法获得MAP估计的算法。Jeng还进一步证明了非平稳GMRF模型在退火过程中的收敛性。Zerubia利用鞍点近似算法,用均值场退火方法求MAP估计。Zhang基于鞍点近似求解均值场,并用EM方法实现了图像恢复。Figueiredo不采用关于线过程的先验分布,而把CGM中的线过程作为确定性的未知参数,基于MDL原理并结合观测图像估计边缘数和它们的位置,提出了非监督MAP恢复算法。
Bouman采用弱表层技术约束先验模型,并用GNC(Graduated Non-Convexity)方法求MAP估计。Gunsel在TPM(Thresholded Posterior Mean)方法的基础上,根据后验条件概率采样值计算后验均值,提出了基于多尺度弱表层模型的边缘稳健集成算法,可有效实现纹理边缘的检测,但需要大量的计算时间。陆明俊根据多尺度模型,用GBF方法进行后验均值估计,所需计算时间大大减少,且仍能保持相当好的性能。Moura确定了非因果GMRF递归形式,从而可用递归方法(如Kalman滤波)处理图像恢复问题。尽管CGM模型和弱表层模型用于图像恢复时取得了较好的效果,但对边缘检测情况就不十分理想了。
我们知道,直接求Bayes估计具有指数复杂度,因为需要计算所有可能状态的后验概率,实际上是不可行的。通常为了避开这个困难问题,需要选择可行的途径和算法。当求MAP估计时,可将原问题转化为求后验能量函数最小值所对应的状态。通常后验能量函数有多个极小,即非凸的。因此它是一个组合优化问题,可用随机松弛和确定松弛方法求解。
随机松弛算法包括模拟退火、Gibbs采样器等,确定松弛算法包括GNC(Graduated Non-Convexity)方法、ICM(Iterated Conditional Mode)方法、均值场退火、神经网络以及动态规划等。随机松弛是一种全局优化算法,它花费大量计算时间以获得全局最优解。而确定松弛是一种局部优化方法,本质上是一个非随机的确定过程,它所需计算时间少,但只能得到局部最优解。两者的区别在于状态更新方式:如果新状态具有较低的能量,两者都转移到那个状态;如果新状态的能量升高,前者依一定概率转移到那个状态上,从而能量函数依一定概率向增加方向变化(称为随机扰动),这样既有助于系统摆脱局部极小的约束,又使系统最终达到全局极小后不再受扰动的干扰和破坏,后者不更新状态,它只允许跳到较低能量的状态上,从而导致受限于局部极小。
1.3.3 精确图像分割研究现状
纹理图像分割在图像处理、计算机视觉、医疗图像分割中都具有十分重要的意义,纹理图像的分割就是根据纹理特征描述将图像分为几个区域。将图像分割成一些具有某种一致性的区域是图像分析的重要手段,一致性包括亮度、颜色或纹理等衡量标准。在机器视觉系统中,通常图像可以根据亮度标准进行分割,但在复杂的情况下,如自然景物,这种方法不能达到令人满意的分割效果。因为这类图像不具有均匀的亮度分布,而具有共同的纹理轮廓特征。
活动轮廓模型是20世纪80年代后期发展起来的一种图像分割方法,特别适用于建模和提取任意形状的变形轮廓。活动轮廓模型是一种有效的图像分割、运动跟踪方法,这种方法已成功地用于物体识别、计算机视觉、计算机图形和生物医学图像处理领域。基于活动轮廓的图像分割的过程就是活动轮廓在模拟的外力(外部能量)和内力(内能)作用下向物体边缘靠近的过程,外力推动活动轮廓向着物体边缘运动,而内力保持活动轮廓的光滑性和连续性;到达平衡位置时(对应于能量最小)的活动轮廓收敛到所要检测的物体边缘。由于这种方法同时考虑了几何约束条件和与图像数据、轮廓形状有关的能量最小等约束条件,所以能得到令人满意的分割效果。
活动轮廓模型主要分为参数活动轮廓模型和几何活动轮廓模型两大类。其中,参数活动轮廓模型又称为Snake模型,是一种能量函数最小化的变形轮廓线,它已经被众多研究者成功地应用于计算机视觉的许多领域。
Snake模型又称参数活动轮廓模型,是由Kass于1987年提出的。Snake模型对噪声和对比度不敏感,能将目标从复杂背景中分割出来,并能有效地跟踪目标的形变和非刚体的复杂运动,因而被广泛用于图像分割和物体跟踪等图像处理领域。Snake的主要原理是先提供待分割图像的一个初始的轮廓位置,并对其定义一个能量函数,使轮廓沿能量降低的方向靠近。当能量函数达到最小的时候,提供的初始轮廓收敛到图像中目标的真实轮廓。Snake能量函数由内部能量函数和外部能量函数组成,内部能量控制轮廓的平滑性和连续性;外部能量由图像能量和约束能量组成,控制轮廓向着实际轮廓收敛。由于约束能量可根据具体的对象形态定义,因此使得Snake模型具有很大的灵活性。
Snake模型发展10多年来,许多学者对经典Snake模型进行了改进,提出了各种改进的Snake模型。总的来说,这些改善主要体现在能量函数的设计、优化方法的改进和把Snake模型和其他技术的结合上。
①在能量函数的设计上,除了有Kass提出的着眼于外部边界的方法外,有一些方法把着眼点放在了轮廓内部和区域上。Cohen引入了“气球力”(Balloon Force),可以使轮廓线膨胀或者收缩。气球力还可以使轮廓线略过虚假的、孤立的和不强烈的图像边界,并且有对抗轮廓线自然收缩的趋势。应用了气球力的Snake模型减少了对应初始化未知和图像噪声的敏感性,因此非常适合寻找平滑一致的目标,但不适合寻找复杂的多组分或多颜色的目标。Ronfard引进了基于背景和目标区域的统计模型的目标函数,把轮廓线上的点推向符合背景和目标模型分布的位置。Neuenschwander允许用户指定所需要轮廓变化的两个端点。在最优化的过程中,边界的信息从两端向中间传播。Fua在Snake模型中设置了吸引子和切线条件,吸引子可以迫使轮廓线趋向某一点或者掠过某一点,切线条件则可以迫使轮廓线在某一点具有指定的切线方向。但是由于要在图上指出这些具体的点,所以这种方法比较适合于交互的场合。
②在优化算法上,许多学者提出了更多的创新和设想。Amini 使用动态规划法去最小化能量函数,该方法穷尽搜索了所有可能的方案,每一步循环都给出局部最优解。Geiger允许轮廓线在某初始化位置附近的较大范围内寻找最优解,从而试图在一次迭代中得到最后结果。Caselles和Malladi分别提出用Osher 提出的水平集方法求解Snake问题。他们将轮廓线模拟成一个类似于火焰的锋面(Front),这种方法的主要优点是在演化过程中轮廓的形状可以发生拓扑改变。此外,Christensen将膨胀黏性液态的变形动力学中的偏微分方程应用于Snake模型中,指导模型的演化。
③对应Snake模型本身的改进主要分为两类。第一类是将Snake和其他技术的结合。Menet提出用样条来构造Snake,即用一群基函数的线性组合来表示轮廓,靠改变这些基函数的系数来改变Snake的形状。这样的Snake比以前更加结构化,但因为线性最后本身表达能力的不足,这样的样条Snake往往不足以表示一个特定的形状。Flickner用类似的方法构造Snake,但是他用贪心算法来寻找控制点。Figueiredo用Bayesian方法来描述这个问题,并且用迭代的估计最大化算法来解决它。他们将轮廓的能量用一个函数来表示,且这个函数的参数是三个未知的量,即背景和目标的灰度分布、样条控制点的位置和数目。另一类改进是将先验信息包含于模型中,这些先验信息主要是指一个确定的模板。这个模板作为变形的基础,并且在变形过程中,作为一种制约。Jain在有先验几何形状的场合下,采用整体形状模板,来克服边界上的不连续对提取整个形状造成的干扰。
但由于模型本身的缺陷,致使Snake模型存在对初始位置敏感、易陷入局部极值、无法处理曲线的拓扑变换等问题;而几何活动轮廓模型则基于曲线进化理论和水平集的思想,先将平面闭合曲线隐含地表达为二维曲面函数(称为水平集函数)的水平集,即使其具有相同函数值的点集,再通过曲面的演化来隐含地求解曲线的演化。由于是采用水平集方法来做数值计算,因此几何活动轮廓模型较好地克服了Snake模型的许多缺点,如可以处理曲线的拓扑变化、对初值位置不敏感、具有稳定唯一的数值解等。水平集方法最初称为基于曲率的表面生长方法(Propagation of Surfaces under Curvature,PSC),是一种跟踪N维空间中1N-维表面运动的算法,而运动的速度是曲率的函数,由于曲面方程是隐式表达的,所以不需要写出曲面的显示方程式。水平集方法的优势在于它的拓扑适应性,可以处理合并与分裂的问题,也可以处理尖锐的角点等Snake模型难以实现的问题。
几何活动轮廓模型的这些良好特性已经引起了人们越来越多的关注,并已在图像处理和计算机视觉领域得到了广泛应用。几何活动轮廓模型处理曲线演化的基本思想是:先把曲线作为零水平集嵌入高一维的函数φ中,再通过不断更新φ来达到演化隐含在其中的曲线的目的。Caselles提出的基本的几何活动轮廓模型满足如下方程:
式中,φ称为水平集函数,u为图像函数,为函数曲率,v为常数项,g(|∇u|)为与图像梯度∇u有关的非递增函数,一般定义为,其中,Gσ是方差为σ的高斯函数,*为卷积算子。该式描述了以函数曲面φ的零水平集φ(x)=0所表达的二维闭合活动轮廓线沿法线方向的演化,方程右边是速度项。可见,当活动轮廓线靠近图像边缘时,|∇u|增大,导致g(·)→0,方程右边趋于零,活动轮廓的速度趋于零,最终停止运动。这样,活动轮廓线就停在图像的边缘位置。然而,由于图像中的边缘并非都是理想的阶梯边缘,如果活动轮廓线附近是较平滑的边缘,则活动轮廓线可能越过边缘,出现“冒顶”,不再返回到正确位置。
式(1.14)在图像对比度很好时,可以获得满意的分割效果,但对于不连续的边缘则无能为力。Caselles提出的测地线活动轮廓模型(Geodesic Active Contours)在Snake模型的基础上,将欧氏曲线最短流理论应用到图像边缘搜索中。测地线活动轮廓模型所揭示的曲线依赖曲率在法线方向上的运动是曲线运动最快的方向,与水平集方法中曲线运动的思想是一致的。经过能量活动轮廓法的演化,边缘搜索问题转化成了目标函数的最小化问题,他们提出的目标函数为
式中,C(s):[0,11]→R2是R2上的闭曲线。由于目标函数表现为曲线的长度,因此目标函数最小化问题等价于曲线变化最快的问题,结合曲线沿梯度方向变化最快的理论,可以得到曲线的水平集演化方程:
虽然Caselles等人引入了一些额外约束项,能在一定程度上克服轮廓线“冒顶”,然而不能从根本上解决问题,关键是这些方法仅依靠位于闭合轮廓线下的图像局部信息来控制的运动,难以全局性地分割出图像中的同质区域。
Paragios又把区域竞争思想引入测地轮廓线模型中,提出了测地活动区域模型,该模型综合考虑了目标的边缘、区域和运动信息。由于采用了水平集算法,该模型能处理轮廓线的拓扑变化并且同时跟踪多目标。
由于该模型中仍含有与图像梯度有关的函数项,因此对检测由梯度定义的目标边缘十分有效,但对边缘模糊或者存在离散状边缘的区域,则难以得到理想的分割效果。
Chan提出了—种基于Mumford-Shah最优分割模型的几何活动轮廓模型:
式中,v,μ≥0,λ1λ2<0为固定常数,为Heaviside函数,δ为Dirac函数,,
从式(1.18)可看出,其中涉及的图像函数u是全图像定义域范围,而不像g(|∇u|)函数仅仅利用由梯度定义的边缘信息;另外,式(1.18)中的两个未知数c1、c2也定义在图像定义域内,具有全局特性。不难看出,式(1.18)的一个非常显著的特点就是全局优化,仅用一条初始闭合轮廓线,就可把内部空洞目标的内外部边缘全检测出来,不用为检测内部空洞的边缘做特别处理;其次,初始曲线无须完全位于同质区域的内部或外部,仍然可以正确地分割出目标和背景;最后,这种方法还有一个显著的特点就是不依靠图像中的边缘信息,因此,即使图像中的边缘呈模糊或离散状,仍然可以获得理想的分割效果。
虽然几何活动轮廓模型在定位特征边界中得到了成功应用,但由于它仅利用图像的局部边缘信息,无法描述目标的全局形状,特别是对于边缘模糊或者存在离散状边缘的区域,很难得到理想的分割效果。此外,几何活动轮廓模型受噪声干扰的影响很大,对含噪图像的分割存在较大不足,因此要借助一些其他的附加信息来进行辅助分割。
目前流行的另一种主动轮廓方法是采用Mumford-Shah模型的图像分割和轮廓提取技术。近20年来,基于变分法的Mumford-Shah泛函模型日益成为图像处理领域中一种有效和强大的研究工具。在国外,应用Mumford-Shah模型进行图像恢复和去噪、图像分割和分类、形状匹配等取得了大量的成果,国内的研究尚处于起步阶段。与常规的基于统计的图像处理方法相比,基于变分法的Mumford-Shah泛函模型无论在理论还是在数值计算上都具有很强的优势,它可以直接对一些重要的视觉几何特征,如梯度、切线和曲率等进行操纵,并且在数值计算上可以利用变分法中成熟的数值方法理论来进行实现。Mumford-Shah泛函模型的吸引人之处还在于它为图像处理和计算机视觉领域中的许多问题提供了统一的解决办法,例如许多研究者已将其成功应用于图像分割和边缘提取、三维立体重构、阴影恢复形状等领域。
基于变分法的Mumford-Shah泛函模型与活动轮廓模型不同,该泛函模型中同时包含了表征同质连通区域的能量和表征对象边缘的能量,因此Mumford-Shah泛函模型除了利用图像的局部边缘信息外,还有效结合了同质连通区域的全局信息,这就在一定程度上克服了活动轮廓模型对局部图案曲线的错误定位,从而取得了更为理想的分割效果。此外,Mumford-Shah泛函模型在能量极小化的过程中,不需要进行边缘检测,这就避免了在活动轮廓模型中,根据活动轮廓线的特征设计边缘检测函数的步骤。因此,Mumford-Shah泛函模型比较适宜用于纹理图案的局部分割定位以及纹理图案形状的整体分割提取。此外,由于Mumford-Shah泛函模型本身对噪声具有抑制效应,因此更适于对含噪环境下的纹理图案进行稳健分割,这对于实际工程应用来说是非常重要的。
基于Mumford-Shah模型的分割方法依赖的是同质区域的全局信息,因此可以获得较好的分割结果。Mumford-Shah模型是20世纪80年代提出的,在理论上是一类具有体积能量和低维测度的变分问题:
式中,G(u,K)=μLength(K)+λ∫Ω|u0-u|2dx+v∫Ω|∇u|2dx,u0是有界开集Ω∈R2上给定的含噪图像,闭集K是u0在Ω上的不连续点集,μ、λ和v是调节参数,Length(K)是闭曲线K的1维Haussdorff测度,u为定义在Ω\K上的图像,为此能量函数的最小解。Mumford-Shah模型通过引入图像的保真项控制分割后图像的相似性,图像的正则项则保障分割图像具有一定的光滑性,通过长度项控制边缘的分数维粗糙度。该模型具有结合使用高层知识的能力,支持直观的交互式操作,成为目前最引人注目的主动轮廓方法。
由于Mumford-Shah模型是现代数学中的一种自由不连续问题,模型中对图像中边缘等跳跃部分通过几何测度(Hausdauff测度)项来控制,使得数值逼近或数值解成为十分棘手的问题。由于Mumford-Shah泛函需要对未知的边缘长度项进行处理,同时边缘长度的测度函数K→H1(K)在Hausdoff收敛意义下是非下半连续的,从而导致其在数值计算时存在一定的难度,为此许多学者做了大量研究。De Giorgi在特殊的有界变差空间(SBV空间)中解决了解的存在性和部分正则性,并认为在SBV空间或广义的SBV空间中有弱的形式。他们提出了Mumford-Shah泛函在特殊有界变分函数空间上的弱形式,并将边缘长度项简化为分割函数的本性不连续点所形成的边缘集。不久,Mumford和Shah提出了分片光滑函数的最佳逼近问题。Ambrosio提出了利用辅助函数来逼近边缘长度项的特征函数,并通过椭圆泛函来对弱形式Mumford-Shah泛函进行变分逼近,但是该方法不能处理边缘能量表示比较复杂的情况。Gobbino对De Giorgi猜想进行了严格的数学证明,并给出了数值收敛的数学条件。他们利用有限差分法对Mumford-Shah泛函进行数值求解,并将梯度函数用有限差分近似。虽然该方法能够对曲线长度项的复杂能量密度给予有效处理,但是它要求密度函数必须由分割函数在边缘的局部方向以及边缘两端的边值决定,因此缺乏足够的灵活性。由于有限元法具有精度高、可模拟任意复杂结构、易于进行边界处理等优点,因此更多的学者采用有限元法对弱形式Mumford-Shah泛函进行数值逼近。Negri针对传统各向同性网格在处理复杂边界能量时的不足,采用各向异性网格对弱形式Mumford-Shah泛函进行了有限元逼近,有效提高了处理复杂边界能量函数的灵活性。Bourdin通过对有限元的自适应调整和网格粒度的调节,实现了对精细结构边缘的有效定位,同时也提高了逼近算法的精度。但是由于弱形式Mumford-Shah泛函本身非凸,因此对泛函逼近的过程是非适定的,Negri[100]和Bourdin[101]在对弱形式Mumford-Shah泛函进行逼近求解后容易导致多个局部极小元产生。
目前,对于Mumford-Shah模型的应用研究存在两种简化的隐式模型。其一为Ambrosio提出的基于椭圆逼近的辅助变量模型,通过设置辅助变量函数v:Ω→[0,1]来表征跳跃集Su(Su为K的跳跃部分),并定义了新的松弛泛函Gρ(u,v)和最小化Gρ(u,v)获得分割图像和边缘。他们证明了:如果wρ=(uρ,vρ)为目标泛函Gρ(u,v)的最小序列,则在L2范数下,uρ为u的近似,vρ→1,ρ当0ρ→。这里,vρ仅在不连续集Su的很小的邻域为1,其他地方都小于1。其二为Chan建立的水平集模型,他们讨论了将原始图像视为由不连续集K和分片常数图像组成的简单情形,提出了无梯度主动轮廓二相水平集算法,并推广到多相水平集算法和向量值图像的水平集算法。他们的水平集模型具有自动适应图像中目标拓扑结构,且初始轮廓可以放置在图像中的任意地方。但由于将图像限制于分片常数情形,损失了图像本身复杂的起伏性和边缘的不规则性,因此只能处理目标单一、没有交叉点特征的图像,且分割目标丧失了目标本身的灰度起伏性。
1.3.4 精细图像修补研究现状
图像修复技术是指针对图像中遗失或者损坏的部分,利用未被损坏的图像信息,按照一定的规则填补,使修复后的图像接近或达到原图的视觉效果。图像损坏有很多种形式,有时一幅完整的图像可能由于磨损而散布成各类微小的损害,有时也可能由于保存不当使图像表层受到损害。在这些情况下,图像修复就需要通过专业判断,采取最恰当的方法恢复图像的原始状态,同时保证图像达到最理想的艺术效果。图像修复技术可以安全有效地数字化恢复损坏的艺术作品,并可去除图像中的文字或者其他不期望的物体。此外,图像修复技术还可以应用于视频点播,对网络传输中丢弃或者损坏的视频信息进行修复以改善观看质量。
从数学的角度来看,图像修复是一个病态问题,因为没有足够的信息可以保证能唯一正确地恢复被损坏部分。为了恢复被损害的部分,需要分析原始图像及其所属的类别,这些分析对于图像修补整个过程是非常重要的步骤。因此,人们从视觉心理学的角度进行分析,提出了各种假设限定来解决这个问题。
图像修补处理方法有很多种,利用插值方法是一种常用的修补方法。假设图像是连续光滑的二维函数,则可以采用数学上的一些模型来进行插值,得到空白区域中图像函数的值,从而恢复修补区域的信息,较常用的模型是拉普拉斯方程。这种方法通常称为调和法,它是根据修补区域的边界信息,最简单的情况是将其作为Dirichlet边值,用差分法得到对图像进行插值的公式,但图像效果并不理想。原因很显然,现实生活中的图像有很多的边缘信息,图像并不是处处连续的,而且修补应尽量恢复被破坏的边缘,因此采用拉普拉斯方程不能得到最佳效果。
Kokaram提出了以自回归模型为基础的预示算子对破损丢失的图像进行插值修补。该方法对于图像细节的修复效果比较好,但对于边缘的平滑过渡却比较差,即修复图像的纹理连续性不好,而这一点对于一般用户在对图像进行修复时是不能够忍受的,用户希望的就是能够让修复部分与照片的原有部分过渡自然,而看不出人工修补的痕迹。何云升针对这一要求,提出了用最小最大函数作为预示算子,从而导出非线性插补公式,并引入共轭梯度法来修补破损照片,取得了较好的效果。
Hirani采用纹理综合的方法来进行图像的修补,即可以让用户选择纹理来添充修补区域,而对覆盖不同纹理的修补区域,则要求首先进行图像的分割,以保证修补的正确性。这种技术的基本思想就是首先选择一个纹理,然后将它合成到需要填充的区域里面去(如孔洞)。这是一项非常简单的技术,却能产生难以置信的效果。但是该算法必须让用户选择要填充纹理的区域或孔洞。对于那些要进行修补的图像来说,它们可能有多种不同的结构,那么用户就需要从事大量的分割图像的工作,然后从中找出相应的取代区域。尽管部分的查找工作可以自动完成,但是非常花费时间,而且还要不厌其烦地选择大量的参数。李超以点扩展函数和可加白噪声作为图像的退化模型,王学良使用局部最大熵恢复图像,对空域图像恢复模型中的正则化算子进行了自适应修改,以提高图像恢复质量。这些方法对受损不大的图像的修补也有很好的效果。
Masnou提出了去除障碍物模型(Disocclusion)和线性连续模型(Line Continuation),这些工作也都是一些基础的工作,还没有得到深入的研究。在进行去除障碍物算法中,目前主要是用图像分割的,目的来去除遮蔽物,其基本思想就是在同灰度级别处用有弹性的,按最小值估计的曲线连接T型接点。Ballester在延伸这些思想的基础上,提出了一个用于去除遮蔽物处理的通用变分公式,以及一个用这个公式来实现的非常有价值的算法。这种算法通过用短程的曲线,连接到达要填充的边界区域的等照度线的接点,来实现修描处理。
用偏微分方程处理图像修补问题是一个新近发展的研究方向。最先将偏微分方程方法引入图像修补问题的是Bertalmio等人。利用偏微分方程方法处理图像修补问题的方法可以分为两大类:一类注意是依赖图像微观修补机制的仿真系统,如扩散过程、传输过程等;另一类是变分模型,如总变分模型、基于Mumford-Shah图像分割模型的等灰度模型等。Bertalmio采用基于偏微分方程的修补算法,通过将待修补区的邻域信息,沿等光照线方向扩散来填补待修补区,同时利用待修复区域的边缘信息来确定扩散信息和扩散方向,从区域边界各向异性地向边界内扩散。该算法可同时填补多个包含不同结构和背景的区域,并且对待修补区的拓扑关系没有限制。受到Bertalmio等工作的启发,Masnou使用等照度线的方法,在待修复区域边界采用动态规划确定等照度线的连接方式,然后直线连接对应的等照度线并对区域内进行填充。该算法对简单结构信息有较好的修复结果,但抗噪声能力比较弱。Villager提出了一种基于概率的修复方法,通过对梯度和夹角的统计得到其概率分布,然后以待修复区域内总体概率最大为准则求取最优解,对物体的边角修补有很好的效果,但这种方法在使用前需要先选择训练区域,而且对训练区域有较高的要求,因此在实际应用中受到了一定限制。
另一个模拟人眼恢复图像中边缘的有效办法是优化一个图像的能量函数,能量驱动的泛函变分模型主要涉及对各种不同类型能量泛函模型的变分求解,常用的能量泛函模型包括总变分(Total Variation,TV)模型和Mumford-Shah(MS)模型。许威威和郑精灵利用TV模型对图像进行修补,由于TV模型能够部分模拟人眼的低层视觉,在修补图像时可以恢复图像中的边缘,因此取得了较好的修补效果。但是由于TV模型对应Euler-Lagrange方程中的传导系数缺乏几何信息的有效参与,即使对于很一般的人眼视觉原理(如连通原理等)也无法满足,因此TV模型对稍复杂图像的修补结果还存在较大不足。MS模型作为一种有效提高曲线演变拓扑自适应能力的分割模型,是图像分割领域中一种有效和强大的研究工具。与TV模型的隐式边缘表示不同,MS模型对目标边缘项给予显式表示,即模型中除了包含同质区域的全局信息外,还有效结合了目标对象的局部边缘项,因此在一定程度上克服了TV模型对局部图案曲线的错误定位,从而取得了更为理想的修补效果。此外,由于对拓扑纹理图像进行修补预处理的目的是为了提高拓扑纹理图案分割的精确性,因此必须尽可能地加大图像修补和图像分割的耦合度。由于MS模型在对含噪图像进行修补的同时,还有效提取了纹理图案的边缘,因此省去了TV模型在修补后再进行分割的步骤,因此它比TV模型更适于对含噪环境下的纹理图案进行稳健修补和分割。
由于经典MS模型中只包含图像的一阶微分算子,虽然一阶微分算子能够满足分割时所需的边缘检测任务,但对于修补任务而言,由于许多人眼视觉现象(如连通原理)需要高阶的微分算子(如二阶曲率算子)参与,因此必须在MS模型中加入高阶微分算子。此外,经典MS模型对不连续边集的约束惩罚项只涉及长度约束,而没有考虑不连续边集的拓扑弯曲度约束。由于拓扑纹理图案中包含许多拓扑形状复杂的光滑曲线,如果MS模型中缺乏对拓扑弯曲度的约束惩罚,将导致原始光滑连续的曲线经修补后变成许多破裂的曲线段,从而影响拓扑纹理图案的修补效果。
1.3.5 精准图像配准研究现状
图像配准(Image Registration)是对同一场景在不同条件下得到的两幅或多幅图像进行对准、叠加的过程。由于成像条件不同,同一场景的多幅图像会在分辨率、成像模式、灰度属性、位置(平移和旋转)、比例尺度、非线性变形及曝光时间等方面存在很多差异,图像配准就是要克服这些困难,最终将这些图像在几何位置上进行配准,以便能够综合利用多幅图像中的信息满足一定的应用需求。概括来说,图像配准问题是以在变换空间中寻找一种特定的最优变换,达到使两幅或多幅图像在某种意义上匹配的目的。
图像配准技术在诸多领域内有着广泛的应用,其中包括:导弹的地形和地图匹配,飞机导航,武器发射系统的末制导,光学和雷达的图像模板跟踪,工业流水线的自动监控,工业仪表的自动监控,资源分析,气象预报,医疗诊断,文字识别以及景物分析中的变化检测等。
随着计算机技术的飞速发展和普及,图像配准技术在不断地发展和进步,新的技术和方法不断出现。但由于成像方式、图像数据特性、配准精度要求和图像变形降质的原因多种多样,导致现有的图像配准技术常常是根据特定应用而提出来的,只能解决特定的问题。
图像配准一直是图像处理领域的研究热点,诸多研究者提出了大量图像配准方法。根据所采用的不同标准,可以对图像配准方法进行不同的分类。
①按照不同的相似性测度。可以将图像配准方法分为两类:基于图像灰度的配准和基于特征的图像配准方法。
基于图像灰度的配准方法是直接利用图像的某一区域或者整幅图像去估计图像之间在空间几何上的变换参数。基于灰度的配准方法,只需要对图像的灰度进行处理,不需要对图像进行特征提取、分类,算法实现简单,能够实现全自动化配准。
常见基于图像灰度的配准方法有:相关类方法、相位相关法、统计型测度法、互信息法等。近年来,源于Shannon信息论的互信息法的应用最为广泛,几乎可以运用到任何不同模态的图像配准中。基于图像灰度的配准方法的缺点是对图像之间的微小差别非常敏感。一个细微的变化,比如光照条件的微小变化而导致的图像灰度值的细微变化,就会对配准算法的计算结果产生很大的影响,有可能导致配准的失败。所以这类方法抗噪声、抗干扰的能力比较差,只能适用于两幅图像具有相同的外界条件的情况下做精细的配准。
基于特征的图像配准算法是把从图像中提取出来的某些特征作为配准基元,而不是直接采用图像像素灰度。这种算法对于一些细微的干扰不太敏感,而是依赖于提取的图像特征。其关键是寻找易于识别和区分的特征,并基于特征集之间的相似性度量来找到模板在图像中的配准位置。
常用的特征有:点特征、直线段、边缘和轮廓。在特征匹配之前,需要先把感兴趣的图像特征用特征提取算子检测出来,常见的特征检测子有Moravec检测子、Harris角点检测子、Hessian-Laplace、DoG滤波器、显著区域检测子等。在检测出特征区域之后,就可以利用特征匹配算法,将存在匹配关系的特征点对选择出来,实现图像配准。Lowe总结了现有的基于不变量技术的特征检测方法,并提出了SIFT算法,它通过对图像进行不同程度的模糊与缩放,产生具有不同比例的图像,然后从这些图像中分别提取特征。SIFT特征对图像的缩放、旋转、光照强度和摄像机观察视角的改变具有很好的稳定性。Bay提出了SURF算法,它的性能超过了SIFT且能获得更快的速度,它可以对图像的旋转、尺度伸缩、光照、视角等变化保持不变性,尤其对图像严重的模糊和旋转处理得非常好,但是在处理图像光照和视角变化时不如SIFT算法。
②按空间变换模型可分为刚性变换、仿射变换、投影变换和非线性变换。刚性变换只包括平移和旋转,仿射变换将平行线映射为平行线,投影变换将直线映射为直线,非线性变换可把直线变换为曲线,是最复杂的一种变换模型。刚性变换、仿射变换和投影变换只是非线性变换的一个简单的特例,用非线性变换可以表征以上三种变换。由于成像过程受太多复杂因素影响,一般待配准的两幅图像间都存在非线性形变问题,因而要求配准方法具有处理非线性变换的能力,特别是在对配准精度要求非常高而所处理图像广泛存在非线性形变的医学、遥感等领域。
③按配准采用的几何变换来看,可以分为刚性配准和非刚性配准。
早期,人们对于配准的研究主要从一个线性变换的角度考虑图像整体的刚性配准,例如图像的旋转以及空间位置的平移,之后又加入了图像在各个方向上尺度的变换情况(仿射变换),这类方法能够解决线性变换的配准问题。然而随着研究的深入,人们发现图像中不同的部分有时需要采用更为复杂的非线性形变过程,仅仅用一种线性变换配准策略无法达到理想的效果。
非刚性图像配准是通过寻找图像局部变形区域,进而对图像进行局部非线性变换。目前主要流行的方法有基于参数的非刚性配准方法(如基于多项式法、基函数法、样条函数法等)和基于物理模型的非刚性配准方法(如弹性模型、黏性流体模型、光流场模型等)。
基于参数的非刚性配准方法主要利用曲线函数来描述图像的形变,通过求取控制点的参数来确定变换模型。薄板样条是径向基函数的样条家族中的一部分,薄板样条首先被Bookstein用于医学图像配准中,来描述二维平面内发生的形变,它是目前使用较多的一种样条配准方法。然而由于样条函数在其连接点处具有一定的曲率和坡度,薄板样条多应用于模拟全局变换。近年来,由于B样条的控制点改变只影响其周围邻域能够用于解决局部变形,因此基于B样条的自由变形模型被广泛应用到非刚性图像配准中。由于基于局部控制函数,B样条的自由变形模型在计算机图形学中不仅广泛用于动画,可以有效地模拟三维变形物体,取得了成功的应用,而且这种方法还具有计算效率高并能够保持局部拓扑结构的特点,因此广泛用于医学图像配准。
基于模型的变换是通过构造某种模型来模拟图像的形变,常见的模型包括弹性模型、黏性流体模型、光流场模型等。Bajcsy提出了弹性模型的思想,将待配准图像到参考图像的变形过程建模为一个物理过程,类似于拉伸一个诸如橡皮的弹性材料,这种过程可以用Navier线性偏微分方程表示,但是这种方法不能模拟高度的局部形变,具有一定局限性。Christensen提出的黏性流体模型中,待配准图像被建模为黏性流体,图像的形变过程被认为是内力作用的过程,经过一段时间后,内力消失,流体停止流动。内力在图像随着时间变形的过程中释放,使得该模型能够模拟包括转角等高度局部化的变形。不难看出,利用黏性流体模型进行配准,能够提供大变形和更大程度的可变性。然而由于黏性流体模型通过相似灰度值来驱动,为了满足大变形的需求,有可能会导致形式误匹配。
光流场模型是一种重要的分析运动图像的可变形图像配准方法,相当于流体力学中的连续平衡。光流场模型的计算是基于图像像素进行的,在精确性和易用性方面有很大的优势。在光流模型中,浮动图像与参考图像被看成图像序列的连续时间采样,通过求解光流方程来获取变换模型。光流分析的研究起源于对人和生物视觉系统的研究,Poggio在对昆虫视觉系统的研究中提出了一种针对图像上每一点的运动计算方法,该方法可以看成光流计算的一种粗略形式。光流计算的研究真正起始于20世纪80年代初Horn和Lucas奠基性的工作。近几年随着张量分析、微分几何、多网格计算等数学方法和计算手段在图像分析中的不断渗透,光流计算又有了快速发展,在计算精度、可靠性、算法实时性等方面取得了较大的飞跃。
④按变换函数作用域配准可分为全局变换和局部变换。全局变换是将两幅图像之间的空间对应关系用同一个函数表示,刚性变换大多使用此方法。局部变换是将两幅图像中不同部分的空间对应关系用不同的函数来表示,适用于在图像中存在非刚性形变的情形。目前,大多数图像配准方法采用全局变换,即将两幅图像之间的空间对应关系用同一个函数表示。在弹性配准中,通常在全局变换不能满足需求时,需要采用局部变换。
⑤按成像模式不同可分为单模态图像配准和多模态图像配准。单模态图像配准是指待配准的图像是用同一成像设备获取的,而多模态图像配准则是指待配准的图像来源于不同的成像设备。多模态图像配准的目的在于融合不同传感器信息,以获取更为丰富细致的场景信息,如可见光和红外图像配准、医学成像CT和MRI、多波段的人脸识别等。多模态由于图像差异大,配准有较大难度。
⑥按配准过程的交互性可分为人工配准、半自动化配准和全自动化配准。在人工配准方法中,由用户完成配准过程,配准方法负责提供给用户一个直观显示,以便完成配准。在半自动化配准方法中,用户可能需要初始化算法的一些参数,并根据主观判断接受或拒绝某些配准结果。在全自动化配准方法中,用户只需要选定算法和提供图像数据,由机器算法自动完成配准。由于人工配准存在精度上的欠缺,而全自动化配准不需要人工干预,由计算机主动完成,因此是配准技术发展的方向。
图像配准技术经过多年的研究,已经取得了很多研究成果,但是由于影响图像配准的因素的多样性,不同的应用对图像配准的要求各不相同,以及配准问题的复杂性,图像配准的预处理技术还有待于进一步发展。