3.3 视频图像的数字化
3.3.1 视频图像的采样
对视频图像采样,是用采样函数S(x, y)乘以该函数f(x, y),采样函数S(x, y)可表示为
它是由δ冲激函数的采样阵列组成的,在这个阵列里,各点间的间距在X、Y方向上分别是Δx和Δy,采样阵列如图3.3.1所示。采样后的图像为Fs(x, y),则
图3.3.1 δ冲激函数的采样阵列
采样,应遵循采样定理。长期以来,业界一直应用奈奎斯特(Nyquist)采样定理(又称为香农采样定理)。奈奎斯特采样定理是信息论中一个非常重要的基本理论,奈奎斯特与香农都做出了重要的贡献。其原理是在进行模拟信号到数字信号的转换过程中,当采样频率fs大于或等于信号中最高频率fm的2倍时,采样之后的数字信号完整地保留了原始信号中的信息。
需数字化的图像的最高频率为fm,根据奈奎斯特采样定理,则采样频率fs应满足下式:
应该指出,如果所选定的采样频率fs<2fm,那么系统的模拟视频图像通道一定设置正确的带通滤波器,使最高频率fm满足奈奎斯特采样定理的要求,以避免产生数字化带来的频谱交叠噪声。
在图像处理系统中,正确地确定采样频率是非常重要的。在确定采样频率时,首先考虑的是满足采样定律。以PAL制标准的视频图像6MHz视频带宽为例,采样频率应不低于12MHz,如果低于此值(如10MHz),就要对输入的模拟信号进行限带(如采样频率为10MHz,视频带宽应限制在0~5MHz),以满足奈奎斯特采样定理;否则,数字化的图像将产生频谱交叠噪声。同时,为了避免重复设置时钟发生器电路,在确定采样频率时,可考虑所确定的采样频率经过分频后能产生扫描时序信号的因素。在我们早期研制的TS-79型、TS-84型图像处理系统中,选用10MHz为采样频率,一个原因是10MHz的640分频正好是行频。为满足奈奎斯特采样定理,我们应用低通滤波器将视频带宽限制在5MHz之内。当时没有人怀疑使用这一频率的正确性,10MHz的采样频率延续下来,并占据了10年以上的主流地位。随着计算机性能的提高,我们希望用计算机终端来显示图像,这时候却出现了意想不到的问题。当采用10MHz作为采样频率时,所采集的图像在计算机屏幕上显示时发生了变形,直观来看,圆变成了椭圆。当我们计算一个物体的面积时,同一个物体因放置的方向不同,由此得到的面积数也不同;在模糊图像复原中,点扩散函数的模型是以R为半径的圆,而图像采集却把一个圆形的物体采集成了一个椭圆,致使模糊图像复原也出现了误差;在人脸识别中,所采集的人脸发生了变形,致使识别率降低。凡此种种,对图像处理的效果带来了严重的影响,可以说,由此构成的图像处理系统是不可信赖的。TS-79型、TS-84型图像处理系统是具有科技成果的图像处理系统,也都获得了省部级科技成果奖,其成功之处在于当时国内鲜有图像图理系统,这是一个有与无的问题,当时研制时也并没有注意到变形问题。这些系统采用10MHz作为采样频率。这两种系统去数字化一个圆形的物体时,经D/A后在监视器上确实看到了一个相同的不变形的圆形物体;而采用计算机终端来显示由10MHz采样频率形成的圆形物体的数字化图像时,也确实看到了变形的非圆形物体。问题出在采样频率上。前者是错误的A/D频率+错误的D/A频率,产生了不失真的显示效果,掩盖了1:1采样的问题;后者是错误的A/D频率+正确的D/A频率,产生了失真的显示效果,暴露了非1:1采样存在的问题。
在图3.3.1所示的纵横方向等比例采样阵列里,水平方向像素点的间隔为Δx,垂直方向像素点的间隔为Δy,在图像数字化中,存在Δx和Δy在几何上等值的问题,即在X、Y两方向上等间距采样的问题。这个问题称为图像的1:1问题。如果Δx和Δy不等距,则数字化的图像就要产生几何失真。也就是说,图像发生畸变,光学畸变是一个因素,非1:1采样也是一个因素。图3.3.2给出了1:1采样与非1:1采样的示意图。
图3.3.2 1:1采样与非1:1采样的示意图
不正确的采样频率产生了像素点在纵横方向的不等距问题。
通过研究,我们发现,视频图像的数字化,在确定采样频率时,仅仅满足奈奎斯特采样定理是不够的。自此,我们提出了二维图像的1:1采样理论,并在1992年研制成功具有1:1采样功能的TH-925视频图像采集卡,证明了这一理论的正确性。
定义3.3.1 二维1:1图像
二维1:1图像是指满足奈奎斯特采样定理,且X、Y两个维度方向的像素数在单位长度上相等的二维图像。
摄像机、扫描仪、数码相机等图像采集设备采用纵横方向均等比例采样方式所形成的数字图像,其垂直方向上单位长度的像素数等于水平方向上相同单位长度的像素数。也就是说,该图像像素的纵横比是1:1的,这类图像称为1:1图像。
定义3.3.2 二维图像1:1采样
(1)二维采样频率的确定应满足奈奎斯特采样定理的要求;
(2)在奈奎斯特采样定理的基础之上,二维采样频率的确定应满足水平方向采样间隔Δx和垂直方向采样间隔Δy在几何上等值的条件,即Δx和Δy的比值为1:1。
对图像数字化而言,二维图像1:1采样理论是对奈奎斯特采样定理施加新的约束(采样间隔Δx:Δy=1:1),唯一地确定了二维图像的采样频率。二维图像1:1采样理论解决了采样定理在选择采样频率上存在采样频率的不确定性以及在选择采样频率上存在的错误性问题。
定义3.3.3 二维图像采样几何失真误差
Δx为X方向采样间隔的长度,Δy为Y方向采样间隔的长度。则二维采样几何失真误差α定义为
在实际应用中,可以直接考察Δx和Δy的比值。
这里以PAL制为例,来推导满足二维图像1:1采样的PAL制视频图像采样频率的数值。图3.3.3给出了PAL制电视的示意图。
图3.3.3 PAL制电视的示意
我们利用PAL制电视的3个已知条件来确定满足Δx:Δy=1:1的采样频率。
条件1:电视屏幕长宽比为4:3;
条件2:Y方向的高度为575行;
条件3:行正程的时间。
我们知道,电视是按一行一行地进行扫描的,也就是说,视频图像是按行离散化了,Δy间距应以行距为准。在电视技术中,为了适应人们眼睛的特点,与平时自然视野相似,电视的宽高比和电影一样为4:3。在PAL制标准里,一帧图像为625行,50行为奇偶两场的消隐,正程显示的行数为:625行-50行=575行。
图3.3.4给出了PAL制具有标称值的行消隐波形。
图3.3.4 PAL制行消隐的波形
根据图3.3.2和图3.3.4,可以得到以下已知条件:
条件1:电视屏幕长宽比为4:3;
条件2:离散化的Y方向的高度575行;
条件3:行正程的时间52μs。
于是,可以推导出1:1的采样频率。设1:1采样时每一行应该取N个采样点,则
N=575×4/3≈766
取行正程THS=52μs, 1:1采样时X方向的采样间隔T0应为
T0=52μs/766pixel
那么1:1采样时的采样频率fs(1:1)为
这就是取行正程THS=52μs时PAL制标准1:1采样的标准采样频率。
对于NTSC等电视制式,也可以推导出标准1:1采样的采样频率。
对于PAL、NTSC电视制式的图像,1:1采样频率的通用计算公式为
式中,L0为一帧总行数;LFR为一帧的消隐行数;THS为行正程时间。
在表3.2.1所示的标准中,行正程时间THS信号是允许存在误差的,考虑误差项,1:1的采样频率fs(1:1)应在(fs(1:1)-min,fs(1:1)-max)之间。也就是说,1:1采样的最低频率不低于fs(1:1)-min,1:1采样的最高频率不高于fs(1:1)-max。图3.3.5说明了这一关系。
图3.3.5 1:1采样频率的范围
图3.3.5中,fm是视频图像的最高频率。按照奈奎斯特采样定理,采样频率可选择不低于2fm的任何一个频率,满足这一条件的频率范围非常宽。显然,奈奎斯特采样定理在选择采样频率上存在采样频率的不确定性问题。为了解决这一问题,我们试图寻找最佳视频图像的采样频率。对标准的PAL制视频图像而言:
1:1采样频率为14.659~14.829MHz。习惯上,我们将处于14.659~14.829MHz的采样频率统称为1:1采样频率。但我们不能说,选择14.659~14.829MHz的任何一个频率都是绝对正确的,唯一性的正确选择取决于确定的行正程时间,而这是由摄像机产品确定的。对不同的产品而言,行正程的时间会有差别。当一个图像数字化器确定了采样频率后再去连接不同的摄像机,一定存在1:1的失真问题(不论失真是大是小)。所以说,对一个高指标的应用系统而言,图像1:1的查验和校正是需要的。
在设计图像处理系统的采样频率时,不仅要满足奈奎斯特采样定理的要求和1:1采样的要求。有时还要考虑另一个问题,即一个系统采用多种时钟可能会带来串扰。为此,希望选用的采样频率能利于形成行、场扫描时序。
值得指出的是,图像1:1采样,确定了标准采样频率[式(3.3.6)所计算的值]。但是,由于工艺的限制和系统设计的综合考虑,最终选定的采样频率并不严格等于标准采样频率,而是接近于标准采样频率。这样,多少都会产生1:1的失真问题。
如果以PAL制行正程THS为52μs的标称时间为标准,以1:1图像的观点对流行的10MHz、13.5MHz、14.625MHz、14.75MHz做一个比较,可以得到如表3.3.1所示的多种采样频率的视频图像采样几何失真误差。
表3.3.1 常用采样频率的性能比较(行正程THS为52μs)
选取14.75MHz为PAL制标准1:1方式的采样频率,显然,这个采样频率大于12MHz,满足奈奎斯特采样定理。同时,14.75MHz的944分频正好是行频,944这个数字是偶数,也能形成半行频。经过计算,几何失真误差极小。采用14.75MHz的采样频率,每行采样的像素共有767点,因此,PAL制1:1采样的数字图像的点阵为575×767。习惯上,我们常采用576×768的图像尺寸。
对NTSC制的视频图像的采样,通过类似上述三方面的综合考虑,可以选取12.978MHz作为采样频率。为了区别PAL制和NTSC制的不同,其采样脉冲的频率分别记作fsp和fsn,PAL制和NTSC制视频图像1:1采样的频率分别为
值得一提的是,当选用14.75MHz作为采样脉冲的频率时,在市场上并找不到这种频率的晶体振荡器,解决的办法是到专业厂家定制14.75MHz(或倍频)的晶体振荡器。
自行设计图像处理系统时,我们可以选择1:1采样的采样时钟。而当我们使用其他的图像处理系统时,并不知道该系统是否是1:1采样。在这种情况下,可以采用以下两种方法来考查该系统的1:1采样问题。
方法1:对给定的采样频率计算Δx:Δy比值。
有时,我们可以从一个图像处理系统的说明书上得知该系统的采样频率;有时,我们可以测定一个图像处理的采样频率。在已知采样频率的情况下可以按照下列步骤计算出Δx:Δy的比值:
(1)依据电视制式,计算出采样脉冲的周期时间T0。
如适用于PAL制的图像处理系统,给定的采样频率为13.5MHz, T0=74ns。
(2)计算在给定采样频率下每行最大的采样点数N。
N=52μs/0.074μs=702
(3)计算在该电视制式下Y方向的行数最大Hy。
625-50=575(行)
(4)对给定的采样频率计算Δx:Δy比值。
(705×Δx)/(575×Δy)=4/3
Δx/Δy=1.092:1
方法2:软件测试未知采样频率的Δx:Δy比值。
一般情况下我们很难得到一个图像处理系统的采样频率,这时,可以编制软件来测试未知的Δx:Δy的比值,具体的做法是:以一标准圆为标本,采集为数字图像,用软件来测量如图3.3.6所示的Ymax和Xmax,从而计算Δx:Δy的比值:
用软件测试图像Δx:Δy比值的方法,不仅适用于对视频图像的测试,也适合测试诸如扫描仪、数码相机等设备采集的图像,这对于提高图像识别、分析、度量等工作的性能指标是非常重要的。
令K=Δx:Δy,当K为1或接近1时,称这个图像处理系统是1:1系统或准1:1系统;当K为较大值时,则称这个图像处理系统不是1:1系统。对于非1:1系统,则需要对该系统采集的图像进行几何尺寸的校正,这一工作应在进行其他图像处理之前进行。具体的做法是固定y方向,只在x方向上进行放大或缩小。
设原始图像为W1×H,校正后的图像为W2×H,则
式中,K=Δx:Δy。
如采样频率为13.5MHz, K=1.092,则x方向要放大1.092倍。几何尺寸校正的示意图如图3.3.7所示。
图3.3.6 软件检测Δx:Δy
图3.3.7 几何尺寸校正的示意图
1:1图像采样问题不仅在视频图像(包括高清电视图像)的数字化中存在,同样也存在于扫描仪、数码相机等设备采集的图像数字中,还存在于诸如超声等其他传感器的图像数字化中。
在三维图像中,也存在类似的1:1问题。由二维图像1:1采样理论可以延伸到三维图像1:1采样理论。
定义3.3.4 三维1:1图像
三维1:1图像是指满足奈奎斯特采样定理的,且X、Y、Z三个维度方向的像素数在单位长度上都相等的三维图像。
定义3.3.5 三维图像1:1采样
(1)三维采样的采样频率的确定应满足奈奎斯特采样定理的要求;
(2)在奈奎斯特采样定理的基础上,三维采样的采样频率的确定应满足水平、垂直、高度方向上的采样间隔Δx、Δy、Δz在几何上等值的条件,即Δx、Δy、Δz的比值为1:1:1。
与二维采样几何失真误差类似,也可以得到三维采样几何失真误差。
定义3.3.6 三维图像采样几何失真误差
在三维均匀采样中,Δx为长度方向上的采样间隔,Δy为宽度方向上的采样间隔,Δz为高度方向上的采样间隔,三维采样几何失真误差为,高度方向的几何失真误差为,则
显然,非1:1采样频率形成的二维图像、三维图像,都会产生图像畸变。可以说,图像畸变,不仅包括由于光学成像过程产生的在大小、比例、梯形、枕形、桶形、扭曲和旋转等方面的图像变形,还包括图像采样过程所产生的图像变形。
在相同的单位长度上,二维图像在长度方向的像素数为W、在宽度方向的像素数为H,二维图像几何失真误差为α2D,则
同理,在相同的单位长度上,三维图像在长度方向的像素数为W、在宽度方向的像素数为H、在高度方向的像素数为D,三维图像的X方向几何失真误差为,Z方向几何失真误差为,则
在线阵B超医疗诊断仪中,确定1:1采样频率时要考虑要线阵超声探头阵元间隔以及多振元组合发射和接收的方式(如d/2或d/4方式)以及超声波在人体内的传播速率(超声波在人体软组织的传播速度的平均值为1540m/s)和超声图像信号的带宽。
例如,一个线阵超声探头阵元数为64阵元(图3.3.8),长L为104mm,阵元间距d=104/64=1.625mm。d/2方式的间距为1.625/2=0.812mm,水平方向共采样128点;d/4方式的间距为1.625/2=0.406mm,水平方向共采样256点。确定了水平方向采样点数后,可以根据超声波在人体内的传播速率和信号带宽,参照图像1:1采样定理,实现超声图像1:1采样。我们曾在1989年设计过线阵B超医疗诊断仪,这里不再赘述。
图3.3.8 线阵超声探头64阵元的排列
既然存在二维图像1:1、三维图像1:1采样理论,是否也存在某类一维信号的1:1采样理论?显然,从二倍频到无穷大的频带,并不是所有的频率都适合成为某一维信号的采样频率的。根据某种物理量,是能推导出某类一维信号的1:1采样频率。至于某类一维信号的一维1:1采样频率的问题,应由从事一维信号处理的研究人员去思考。
回顾发现图像1:1采样的历程,笔者在1983年发表了“物体的边界的跟踪和周长面积的确定”论文,发现了非1:1采样变形的问题。一个变形的图例如图3.3.9所示。
应用我们研制成功的TS-84微机图像图形处理系统,对A、B两个字进行边界跟踪和周长、面积与中心的计算。图中给出了跟踪的边界以及标注的中心位置(“+”表示中心位置)。我们将图3.3.9下部A、B两个字的外轮廓线分别旋转,其形成的外轮廓线和中心点如图3.3.9上部所示。对比上下两部分,可以明显看到图像非1:1采样所产生的变形。
图3.3.9 一个非1:1采样的实例
研制TS-84微机图像图形处理系统时,我们采用了10MHz采样频率,对PAL制视频图像数字化,导致了数字化图像的变形。
当时视频图像行消隐信号的标称值是11.8μs, 1:1采样频率的周期为T0,则
当行消隐信号的标称值为11.8μs时,图像1:1采样频率为
在一个图像处理系统中,既需要采样信号,又需要扫描时序信号。在系统设计时,应尽可避免设置多种时钟发生器,这样既可以减少系统开销,又可以减少不同时钟相互间的干扰。由于采样时钟的频率较高,只要选择合适的采样频率,既满足采样的需要,其分频后的信号也能形成扫描时序。这里特别强调的是,需要形成半行频的扫描信号。之所以强调形成半行频,是因为在产生场扫描时序时,需要半行频的输入信号。显然,14.668MHz频率不是行频的整数倍。于是,我们就近选择了14.625MHz。鉴于市场没有现成产品,我们在原电子部七○七厂定制了14.625MHz晶体,1992年研制成功TH-925图像采集卡。14.625MHz晶体和TH-925图像采集卡分别如图3.3.10和图3.3.11所示。
图3.3.10 定制的14.625MHz晶体
图3.3.11 TH-925图像采集卡
在行消隐信号的标称值为11.8μs的条件下,A/D的采样频率采用14.625MHz,下面我们来计算图像采样几何失真误差。
一行采样的点数为M:
则
Δx:Δy≈1.004
也就是说,在行消隐信号的标称值为11.8μs的条件下,14.625采样频率的图像采样几何失真误差约为0.4%。反观10MHz,其图像采样几何失真误差约为47%。1992年我们研制成功的1:1图像采集卡,由此更正了10MHz采样频率的错误,把47%的几何失真降低到0.4%,取得了明显的进步。
值得指出的是,图像1:1采样,确定了标准的采样频率。但是,由于工艺等原因的限制,最终选定的采样频率并不等于标准采样频率,而是接近于标准采样频率。
图像1:1问题在业界越来越受到重视。美国在2004年发布了国家标准《人脸识别数据交换规范》,其中关于图像1:1问题做了如下的规范:
“7.4.2.1像素纵横比(Pixel Aspect Ratio):用来捕获图像的数码相机和扫描仪生成图像的像素纵横比应该是1:1。也就是说,垂直方向上每英寸的像素数应该等于水平方向上每英寸的像素数。”
在公安部于2010年12月2日批准发布的中华人民共和国公共安全行业标准《安防生物特征识别应用术语》(清华大学为第一起草单位)中,提出了1:1图像的规范,足以显现出1:1图像理论的重要性。下面以人脸识别的一个实例来说明应用1:1采样理论的重要作用。某一图像采集卡的采样频率为13.5MHz,用该图像卡采集人脸图像。一组数据是原始采集的人脸图像,另一组是进行1:1校正的人脸图像。这两组人脸图像分别在43万人的数据库中进行人脸识别,识别结果如表3.3.2所示。
表3.3.2 13.5MHz采样频率获得的人脸图像进行1:1校正前后的人脸识别率
表3.3.2清楚地表明,1:1校正后的识别率有了非常大的提升。对于那些非1:1采样的数字图像,在处理前,应进行1:1图像校正。
奈奎斯特采样定理是信号处理学中的一个重要基本理论,但没有确定最合理或比较合理的采样频率。图像1:1采样理论通过施加新的约束(Δx:Δy=1:1),科学地确定了图像的采样频率,符合图像1:1采样理论的数字化图像具有旋转不变性,严格意义上讲,也不存在由于采样引起的几何失真。采样频率不再是大频率带宽内的任何一个频率,而仅仅是其中符合1:1采样的频率,采样频率具有广义上的唯一性。图像1:1采样理论是图像数字化的重要基础,是对采样定理的一个发展,也是图像处理领域的一个理论成果。
图像1:1问题是图像处理的一个重要问题。对于一个成像设备,图像1:1几何失真度和图像信噪比、图像分辨率一样,是表征其性能的一项重要指标。如果成像设备的生产厂家能给出其产品的图像1:1几何失真度,将对图像处理技术的研究与应用发挥重要作用。
3.3.2 数字图像的有效比特位
形成了采样脉冲以后,就要对模拟图像进行采样、量化和编码。这三个步骤通过A/D芯片来完成。选择A/D芯片,首先要满足转换时间和转换精度的要求。转换时间是指完成一次模/数转换所需要的时间,也就是说,从转换开始,经过这段转换时间以后,A/D转换器的输出码有效。这个转换时间,必须要小于采样脉冲的周期时间。我们知道,采样和量化都会带来误差。除了在量化上存在因为比特位精度产生的量化误差以外,还有由不确定误差电压产生的误差。即在采样时,在把连续的模拟信号变成离散的模拟信号时,由于连续的模拟信号的变化而出现的不确定误差电压。
由于量化是在幅度上对样本值进行离散化处理,样本的真实值和量化值之间存在误差,这种误差称为量化误差。在均匀量化的量化器中,量化误差的大小是判决电平间隔的1/2,在A/D芯片的说明书里,则标明是最低比特位的1/2。
这里提出一个问题:在均匀量化的量化器中,应该采用多少个量化层来量化一幅图像?很明显,如果量化层数过少,从图像恢复的角度来考虑,就会带来很大的失真;从图像处理的角度来考虑,就会丢掉大量的信息(这种考虑和二值化、密度分割处理不一样)。另外,如果量化层数过多而不再会增加图像的分解力,却大大地增加了样本点的位数,使一幅数字图像的数据量大大增加,这也是不可取的。合理地选取量化器的量化层是很重要的。一种考虑的方法是着眼于图像处理系统所能达到的水平,这种水平是指该量化器能够容忍系统内噪声影响的量化间隔最小值,这里指的噪声包括信源(如摄像机、录像机等)的噪声和视频通道的噪声。对应摄像机的标准输出,VPP为1V,如果选用256个量化层,则每个量化层约为4mV,如果该摄像机输出的信噪比为48dB,在其输出为1V时,最大噪声约为4mV,可见256个量化层算是一个精细的量化级了。在这种量化级的系统中,如果噪声引起的样本值摆动在4个量化间隔以内,那么这种数字图像的质量算是不错的。
样本被量化为K级,一般取K=2N,用顺序的二进制码对量化后的样本值进行编码,那么每个样品都被编制成N位二进制码,如果N为8,则表明数字化的图像为8bit的。
当然,也可以不用顺序的二进制码对样本进行编码,但在通用的图像处理系统中数字化器基本上都采用这种顺序的二进制码,至于各种压缩编码的方法,也是在此基础上再进行各种变换。上面已经提到过量化级,量化级表现为位数,64级对应6bit码位,256级对应8bit码位。比特位的多少反映了A/D芯片转换精度的高低,A/D芯片的转换精度和转换速度是A/D芯片两个重要的参数,我们在选择A/D芯片的转换精度这一参数时,主要是考虑图像处理系统对图像分解力的精度要求,要求越高,所花代价也越高。理论和实践都表明,对灰度图像而言,数字图像的比特位至少应不低于6bit;对黑白B超图像而言,数字图像的比特位至少应不低于4bit;对彩色图像而言,数字图像的比特位至少应不低于16bit。在有的场合里,会对图像的分解力提出更高的要求,如X光图像处理系统,源于医生看惯了清楚的X光照片,难于接受一幅分解力不高的数字图像。现在,4K摄像机已经面世,其位数已达到30bit,图像质量达到了新的高度。当然,盲目地追求图像的高分解力也是不切实际的,因为分解力总是有限的。另外,图像的分解力并不唯一地由A/D芯片的转换精度所决定,图像处理系统的数字化器采用了12bit的A/D芯片,我们不能说系统的图像分解力就是12bit,因为系统的噪声,包括信源(如摄像机、录像机等)的噪声和视频通道的噪声都对图像的分解力产生不利的影响。既然图像的分解力并不唯一地由A/D芯片的转换精度所决定,那么真实的图像分解力又怎么确定呢?
这里,我们引入了一个图像有效位的概念。一幅模拟图像,经数字化后形成数字图像,数字图像中每一个像素的比特位里能够真实地代表原始模拟图像的比特位则称为该像素的有效位。由于一幅图像的像素很多,不能用单个的像素有效位来表示整幅数字图像的数字化水平,应该考虑图像的一个集合,把这个集合的像素有效位作为图像有效位。我们讲一幅数字图像的图像有效位为M个比特位,是指该幅数字图像里像素的比特位中从最高位数起,有M位是可信的,其正确量化的概率超过60%,M表征了一幅数字化图像的数字化水平。显然,M值越高,图像越细腻,也越干净。一个系统的数字化器所使用的A/D芯片的转换精度为Nbit,现在我们不用Nbit来表示系统图像分解力,而用图像有效位Mbit来表示该系统的图像分解力,显然,
现在遇到的问题是:怎样确定M?
我们观察一幅采样后的数字图像,有时会发现在正常图像上有一些白点(有时是黑点),这并不是数字化造成的,而是帧存写入时序不合适。应先解决好这一问题,以保证数字化的数据正确地存入帧存。这种情况告诉我们,在确定M值时应排除那些非数字化过程的因素,在整个系统正常工作的前提下,再来测定M。测试分两种方法进行。第一种方法是把摄像机的镜头盖盖上,冻结一幅数字图像,再测试这幅图像的图像有效位。第二种方法是把摄像机的镜头盖打开,拍摄一张均匀的纸,冻结这幅数字图像,再测试该图像的图像有效位。前一种方法试图去除光照的影响,后一种方法可以用多种均匀的纸来反复测试,以得到更准确的结果。计算时要选取一个测试区间,这个区间的数值一般取该整幅图像实际点阵的数值。设一幅数字图像的点阵为W×H,像素值为Gij,则该幅图像的像素值均值为
平均误差则为
均方根误差σ则为
与平均误差相比,均方根误差对大的误差能更充分地反映出来,量测的数值常常也比平均误差的数据大。由于对误差采用不同的计算方法而得到不同的误差数据,那么就可以得到不同计算方法的图像有效位,如采用平均误差的图像有效位和采用均方根误差的图像有效位。得到了误差数据以后,再根据其数值大小折合成比特位即可确定图像有效位的大小。例如,像素为8bit的灰度图像,经量测,误差数值小于等于4,则该图像有效位为6bit,而低2位是不可信的;如果误差数值小于等于8,则该图像有效位为5bit,而低3位是不可信的。
在实际量测中,常常不进行整幅量测,而是取一个窗口来测试,这样做可以避免图像边框可能带来的不利影响,因为在图像边框常常会出现一些干扰或错点,而且图像中心的分辨率也比较高。具体做法是可以在512×512分辨率中取中心的256×256点;或在256×256分辨率中取中心的128×128点。拍摄一张均匀纸时,可使所量测区域里统计的均值处于满量程的中心值,而所测的均值不能处于零或最高灰度值附近。
通过上面的一系列讨论,我们在采样中得到了W×H采样阵列,在量化编码里,又形成了每个采样点的N位,于是构成了一幅W×H×N的数字图像。怎样选择W、H、N,使得数字化的图像最优(包括几何失真最小、图像重现误差最小)?是否可以认为:在通用的视频图像处理系统里,1:1采样阵列(每行都采样)选定的W×H和10bit的图像分解力,将是一种最优的选择。当然,目前大多数系统在灰度上取为8bit,这仍是性能价格比高的一种选择。
顺便指出,在选择A/D芯片时,要注意满刻度量程这个输入范围的指标,这个指标表明A/D芯片输出全“1”码时,该芯片输入模拟量达到的具体数值。如对于CA3318芯片,全“1”码时要求输入电压为5V;对于BT218,全“1”码时要求输入电压为1V,两个芯片都是8bit的转换精度,即都是256级灰度。对于CA3318来说,每级灰度约为20mV;而对于BT218来说,每级灰度约为4mV。显然采用CA3318,对于视频通道的噪声有较大的容忍,也就易于实现。
3.3.3 模拟视频图像的预处理
前面多次提到噪声问题,这是图像处理涉及的一个重要问题。针对去噪问题出现了许多算法,在诸多种类的图像处理系统里,以X光图像处理系统和B超诊断仪的去噪问题尤为突出。在X光图像处理系统中,常采用多帧平均消噪;而在B超诊断仪中,常采用行相关、帧相关电路来消噪。从图像输入这个角度来考虑,引入噪声的环节有输入设备本身(如摄像机)和输入信道。摄像机一个重要的性能指标是信噪比(另一个重要的性能指标是清晰度),这个参数表示了摄像机输出图像的噪声大小。
信噪比定义为
或
式中,VS为信号电压;VN为噪声电压;PS为信号功率;PN为噪声功率。
中国台湾敏通公司的MTV-1881EX黑白摄像机,标定的信噪比为48dB;日本JVC公司的彩色摄像机1280,标定的信噪比为50dB;日本SONY公司750彩色摄像机标定的信噪比为58dB。这些摄像机都是图像处理系统常选用的摄像机,其信噪比这一参数还是满足了系统的要求。用户在选择摄像机时,一定不要忽略信噪比这个参数。对于CCD摄像机,在操作时,除了调整焦距以外,还要调整好光圈,以期达到输入图像的最佳效果。
在模拟通道的设计中,噪声问题是一个经常令设计者头痛的问题。对于图像视频通道,我们总希望它具有尽量小的噪声电平,这个视频通道主要由一些放大器组成,一个放大器噪声性能的好坏,如果用它的输出噪声电平大小或输出信噪比的高低来衡量,还不能确切反映该放大器的噪声性能,原因在于输出噪声包括两部分,一部分是由信源的噪声经放大后形成的,另一部分是电路本身引起的;而且输出信噪比还与信号强度有关,与放大器增益有关。为了确切地在数量上评价放大器本身的噪声性能,而引入了噪声系数NF,定义为
式中,PSI、PSO分别为输入、输出有用信号的功率;PNI、PNO分别为放大器输入、输出的噪声功率。
式(3.3.26)是噪声系数的基本定义,将它作适当变换,则可以改写为
式中,AP为放大器的功率增益。
式(3.3.27)从物理概念上清楚地表明,一个放大器的噪声系数等于该放大器的输出噪声功率与信号源在输出端所产生的噪声功率AP×PNI的比值。
一个信道往往由多级放大器组成,多级放大器的噪声是每一级放大电路在输出端产生的噪声的叠加。这里以两级放大器为例来说明这个问题。
图3.3.12示出了两级放大器的噪声等效电路。
图3.3.12 两级放大器的噪声等效电路
图中,第一级放大器的功率增益为AP1,等效噪声源为;第二级放大器的功率增益为AP2,等效噪声源为。两级放大器输出端噪声均方值为
根据噪声系数的定义,推导出两级放大器总的噪声系数NF为
式(3.3.29)表明,多级放大器总的噪声系数主要取决于第一级的噪声系数,因此设计低噪声的前级放大器是有益的。在实际制作中,图像输入信道的印制电路板设计相当考究,大面积接地是最普遍使用的一种方法,这主要是为了降低地电流产生的干扰。在大面积接地中,多层板的效果一般比双面板效果好。第二种方法是在布线中把模拟地和数字地分开,在多层板的地层,也可以分成模拟地和数字地。第三种方法是在供电中采用板稳压的方法,在一个电路板中,如果既有模拟通道,还有数字通道,可采用模拟通道、数字通道分别供电的方法。比如在图像卡中,由计算机提供±12V的电压,经板稳压形成±9V,供给运算放大器,再经板稳压形成±5V,供给输入信道的其他器件使用。通过这种板稳压处理以后,图像输入信道所使用的电源的纹波大大降低了。在图像输入信道的印制电路板设计中,相同的电路图,不同的布线可能有不同的结果,以多种布线设计制作,再经实际检验,择优选用,在要求特别高的场合里,这种方法也是可取的。
箝位,是图像数字化的重要步骤。我们知道,标准电视信号有消隐电平,这是标准黑,在图像视频通道里,由于直流漂移等原因,有时视频信号的消隐电平不在零电平上,或者说不在固定电平上。把这种直流电平波动的信号送去作A/D变换,所得到的变换结果就会变得不可信,这样就很有必要在A/D变换前用箝位电路来统一标准,把消隐电平拉在零电平(或一个固定电平)上,便于有一个统一标准的A/D变换值。要进行箝位,就需要在视频信号中选择箝位的正确位置,也就是要在该位置上产生箝位脉冲。图3.3.13给出了箝位脉冲和视频信号的时间关系。
图3.3.13 箝位脉冲和视频信号的时间关系
从图3.3.13可以看出,箝位脉冲处在行消隐的后肩上,此时视频信号应是消隐电平,当然,这样的箝位脉冲也易于实现。这是标准电视信号里有标准消隐电平的情况,而大部分传感器输出的信号没有类似的信号,这样就难以确定箝位的具体位置,因此常常加不上箝位。在这种没有箝位的情况下,更是要求电路的直流漂移小、电路的稳定性高。
图3.3.14给出了一个在图像卡中使用CA3318的视频通道电路。
图3.3.14 一个在图像卡中使用CA3318的视频通道电路
在图3.3.14中,摄像机输入信号送入第一级运放LM318,LF398、LM353和LM318组成箝位放大电路,箝位脉冲送到LF398的第8端,W3调整箝位电平,起到调整图像直流电平的作用,W2调整第一级运放的放大倍数,起到调整图像对比度的作用。由PC±12V电压稳压形成±9V电压(记为±9A)供给运算放大器,经两级稳压形成±5V,为了和计算机的+5V相区别,这里的5V记为5A。把稳压后的5V电压送到CA3318的参考电压端,目的是保证量化的准确性。调整W2、W3,使输入到CA3318的16、21端的模拟信号最大幅度达到满刻度5V的要求。由于CA3318的转换频率高,可以实现实时采样,所以直接用压控振荡器输出的点时钟作为采样脉冲,送到CA3318的18端。CA3318第14端是三态输出控制端,当此端为低电平时8位输出码有效。
数字化的图像常常需要存储起来,那么数字化器就要产生与A/D获得的数据相对应的地址,简称为A/D地址。A/D地址分为行地址和列地址。列地址表示该采样点(也称图像像素,简称为像素)在矩形图像中水平方向上的位置,水平方向的地址从左向右逐点增大;行地址则表示该点在矩形图像中垂直方向上的位置,垂直方向的地址从上向下逐行增大。总体设计时确定一幅数字图像的点阵为W×H,这个W列H行的图像不一定正好满屏,那么在广义上说,这幅数字图像处于电视屏幕中的一个窗口里,这个窗口可以用图3.3.15所示的行框和列框来表示。图中的大矩形区为全屏幕图像的最大区域,中间的小矩形区为采样图像区,宽度为W,高度为H,大矩形区右边的波形为行框,大矩形区下边的波形为列框,图像矩形区的起点为A(X0,Y0)。这里出现一个问题,即在图像矩形区里A点的地址应该为(0,0),而在全屏幕图像显示区里A点的地址应该为(X0,Y0)。显然,这是两套地址体系。
一套地址以全屏幕为图像区间,它和标准的行场消隐信号相对应,水平方向处于行正程,垂直方向处于场正程,这套地址称为扫描地址。扫描地址最大的特点就是和屏幕的一一对应关系,可以说它是一种物理地址,左上角为(0,0),右下角为X、Y方向地址的最大值。另一套地址是存储地址,这是一套变换地址,图像区里的一点P,令P点在扫描地址体系里的地址为(x, y),而在存储地址体系里的地址为(x',y'),则
图3.3.15中的行框和列框,也有确切的时间含义。令行框高电平的时间宽度为THH,列框高电平的时间宽度为TWH,那么
图3.3.15 行框和列框
式中,TH为行周期;H为行框的行数;隔行扫描时A为1/2,逐行扫描时A为1;T0为采样脉冲周期时间;W为列框点数。
如果把行、列框“或”起来,就形成了复合的数据框。行、列数据框形成电路也比较简单,图3.3.16和图3.3.17分别给出了行、列框形成电路框图。
图3.3.16 行框形成电路的框图
图3.3.17 列框形成电路的框图
在图3.3.17中,X0数值的预置由寄存器完成。CP0为预置脉冲,CD0~CD15是计算机送来的数据。当图中的点计数器1输出的值和计算机送的预置数相等时,数值比较器则产生一个低电平的输出信号,经反门后作为D触发器的触发脉冲。这样,D触发器输出一个允许点计数器2计数的信号,使点计数器2开始计数。列终点判别电路可由可编程逻辑芯片构成,当点计数器2计到W时,列终点判别电路产生一个低电平脉冲使D触发器归零,由此停止点计数器2计数,并使点计数器2的各输出端归零。这时D触发器的输出就是我们需要的列框信号LW。图中,CK0是采样脉冲,/CB是标准的行消隐信号。
图3.3.16所示的行框HW形成电路框图与图3.3.17所示的列框形成电路框图的原理类似,只是图中的行计数器的输入时钟为行同步/HS,而计数允许信号是标准的场消隐/VB。应该指出,上面介绍的行、列数据框形成电路和扫描时序的关系十分密切,且与扫描时序的形成电路很类似,只要数据框起点A在扫描地址里有一确定的值,那么行、列框以及复合框在扫描时序的形成电路中都易于实现。在有了数据框以后,存储地址就易于生成。图3.3.18和图3.3.19分别给出了列地址、行地址的形成电路。
由于图像为512×512点阵的,X、Y地址长度都是9bit。图3.3.18所示的列地址形成电路是一个9bit的X地址计数器,Vclk是点脉冲,输出地址为X0~X8。
图3.3.19所示的行地址形成电路是一个8bit的Y地址计数器,其输出地址为Y1~Y8,Y的最低位地址Y0是奇偶场信号,可由扫描时序的形成电路给出。
上面就黑白图像数字化器的设计问题进行了方方面面的讨论,图像数字化器的另一类则是彩色图像数字化器。彩色图像数字化器比较复杂,方式也比较多,归纳起来主要有3类:RGB方式、YUV方式和SHI方式。和黑白图像数字化器相比,它们之间的差别主要在视频通道上。图3.3.20给出了RGB方式的彩色视频通道电路框图。
图3.3.18 列地址的形成电路
图3.3.19 行地址的形成电路
图3.3.20 RGB方式的彩色视频通道电路框图
图3.3.20中,解码器首先对全彩色电视信号进行解码,得到RA、GA、BA三路模拟信号,然后再经过3个类似于黑白数字化器的视频通道,分别得到R0、G0、B0三路数字信号,由此形成了一幅彩色的数字图像。在RGB方式里,3个基色的比特位有8、8、8的,也有5、5、5的,为了凑够16bit的字长,还有5、6、5的。5、6、5的位分配比5、5、5的要好,原因在于G分量的图像质量往往要比R、B分量的图像质量好。也有用8bit来表示一幅彩色图像的,按照3bit、3bit、2bit码位来分配RGB的比特位。这样的比特位分配虽对某些特定图像来说,图像显示的效果还可以,但难以准确描述大多数的彩色图像。由于是三路信号,彩色图像的数据量是黑白数字图像的3倍,例如一幅512×512点阵的彩色图像,R、G、B分别为8bit,其数据量为768KB,可见彩色图像的数据量是很大的。