高清数字电视机使用与维修一点通
上QQ阅读APP看书,第一时间看更新

1.2 数字电视信源编码

1.2.1 数字信号的产生

数字信号与模拟信号是两种不同性质的信号。模拟信号的特点是连续性。在时间轴上是连续的,即每个时刻都存在一个信号幅值与之相对应(当然包括零幅值);在幅度轴上也是连续的,即信号幅值在其动态范围(最小值到最大值的变化范围)之内的每个幅度水平上都可能存在。而数字信号的特点是离散性,在时间轴上是离散的,即单位时间内只存在着有限个样值;在幅度轴上也是离散的,即每个幅度只存在有限个量化等级。数字信号通常是用一组脉冲序列来代表,例如,图1-4所示的一段脉冲序列,有脉冲位为“1”,无脉冲位为“0”,且完整的脉冲波形有上升沿时间和下降沿时间,因此这段脉冲序列可以代表数字信号10110101。

数字电视中的视频与音频信号均是经过取样、量化、编码三个过程,形成二进制数字信号。一个模拟信号数字化过程如图1-5所示。显然,取样点越多,量化等级越细,越能逼真地表示模拟信号。

978-7-111-30684-9-Chapter01-4.jpg

图1-4 数字信号波形

978-7-111-30684-9-Chapter01-5.jpg

图1-5 模拟信号数字化示意图

【知识要诀】

模拟信号数字化,取样、量化加编码,

时取幅量模变数,数字电平二进码。

(注:“时取幅量模变数”即取样是在时间上将模拟信号离散化,量化是在幅度上将模拟信号变为离散值的数字信号。)

1.2.2 压缩编码的必要性与可行性

1.数字电视视频信号压缩的必要性

模拟电视视频信号数字化后的数据量非常大,按照4∶2∶2标准进行分量编码,亮度信号的数据传输速率(码率)为108Mbit/s,两个色差信号的码率为108Mbit/s,如果传输信道每赫兹带宽能传输的最高码率是2bit/s,则传输一路数字电视信号则要求(216/2)MHz=108MHz的带宽。为了提高传输效率,一般将数字化的视频信号先进行压缩编码,从数字视频信号中移去自然存在的冗余度,尽量减少图像各符号的相关性,提高图像的传输效率。这个过程就好像将牛奶中水分去掉制成奶粉,在需要时将水倒进去又做成牛奶一样,在接收端则通过解码将图像信号恢复。

【知识要诀】

视频信号数字化,不经压缩码率大,

传输、存储不方便,实际应用压缩码。

【知识链接】

信源编码就是在原始图像或声音信号中移去自然存在的冗余度,以达到用尽可能少的数码来有效地表示图像或声音信号,从而降低码率、压缩频带,所以信源编码又称压缩编码。一般来讲,信源编码分为无损编码和有损编码。无损编码往往称为熵编码。熵编码又称为变字长统计编码,它利用信息源产生的统计性质,对经常出现的符号应用短码,对不常出现的符号应用长码,从而不造成图像损伤。有损编码是研究人的视觉特性,以便对人眼能看见的信息编码,有效地减少信源的冗余度。例如人眼对图像的细节分辨率、运动分辨率、对比度分辨率的要求都有一定的限度,而且对图像的某种分辨率要求很高时,对其他的分辨率则降低了要求,利用这一特点,可在不损伤图像主观质量的条件下压缩码率,也就是用客观失真换取码率压缩。

2.数字电视视频信号压缩的可行性

视频信号可以压缩的根据主要有两点:一是视频信号中存在大量的冗余度可供压缩,包括图像结构和编码统计方面的冗余度,这种冗余度在解码后可无失真地恢复;另一点是利用人的视觉特性,通过减少表示视频信号的精度,以一定的客观失真换取视频数据压缩。

978-7-111-30684-9-Chapter01-6.jpg

图1-6 图像空间相关冗余

视频信号结构上的冗余度表现为很强的空间(帧内的)和时间(帧间的)相关性,如图1-6、图1-7所示。一幅图像在不同行、不同场、不同像素之间存在着许多相同的信息可供压缩。一般情况下,电视画面中的大部分区域信号变化缓慢,尤其是背景部分几乎不变,正如观看电影胶带,可以发现连续几十张画面变化甚小。据统计,不同类型的彩色电视节目,在一帧时间内,亮度信号平均只有7.5%的像素有变化,而色度信号平均只有6.5%的像素有变化,这样就有大量的时间或空间的冗余信息可进行压缩。

978-7-111-30684-9-Chapter01-7.jpg

图1-7 图像的时间相关冗余

视频信号在编码过程中,被编码视频信号的概率密度分布是不均匀的。例如,在预测编码中,需要编码的信号是预测误差信号E,而这种预测误差信号的概率PE)高度集中分布在0附近,形成如图1-8所示的预测误差信号概率分布曲线。对这种极不均匀的概率分布的信息,可采用变字长编码,即出现概率低、预测误差大的用长码,出现概率高、预测误差信号为0或小误差的用短码,这样总的平均码长要比用固定码长编码短得多,可消除编码信息所含的统计冗余度。

978-7-111-30684-9-Chapter01-8.jpg

图1-8 预测误差信号概率分布曲线

【知识要诀】

一幅图像的组成,空间像素相关性,

除去相同的像素,数据压缩实可行。

活动图像相邻画,内容相差并不大,

相同背景可去掉,帧间压缩受人夸。

编码数据有不同,出现概率似山峰,

具体应用长短码,压缩数据也有用。

3.数字电视音频信号压缩的可行性

音频压缩是降低音频信号中的冗余和丢掉音频信号中不相关部分(凡不能被人耳感觉到的信号),使数字音频的信息量减少到最小程度,但同时又能精确地再现原始的声音信号。随着人们对音频信号特性和人耳特性的不断研究,音频编码技术得到很大的发展。

(1)阈值特性。阈值特性是指人耳对不同频率的声音具有不同的听觉灵敏度,而人耳感觉不到的声级便称为阈值。如人耳对100Hz以下的信号或18kHz以上的信号灵敏度降低,可觉察的声级明显低于1~5kHz的中音频段。如果我们把可闻频段的信号保留,而把不敏感频段的信号只反映其强信号,对人耳难以觉察的弱信号则可以忽略,就可以使信息量大大减少,如图1-9所示。从阈值特性曲线可以看出,在界限以下的便舍去,其结果对实际的听音效果毫无影响,而使信息量大大减少,达到了压缩声音的目的。

978-7-111-30684-9-Chapter01-9.jpg

图1-9 阈值特性与掩蔽效应

a)掩蔽后效果图 b)未掩蔽频率分布

(2)掩蔽效应。掩蔽效应是指当某一频率段附近如果存在着两个声音信号,而其中一个信号的幅度远大于另一个信号的幅度,则人耳的听觉阈值将提高,使大音量频率附近的小音量变得不可闻,像是小音量信号被大音量信号所掩盖;如果与大音量信号不在同一频率附近的小音量信号,其可闻阈值不受影响,一样听得见。这样,可以将大音量频率附近的小音量舍去,仍不影响实际听音效果,但信息量却大大减少,达到压缩声音的目的。

在现代数字音响设备中,如DVD音频播放器、MP3播放器等,就是充分利用了人耳的听觉阈值特性。如果把可闻频段的信号保留,而把不敏感频段的信号只反映其强信号,对人耳难以觉察的弱信号则可以忽略,这样就可以使信息量大大减少,从而达到了压缩声音信息量的目的。

【知识要诀】

人耳听觉有阈值,阈值大小随频率,

八百五千零分贝,十八千赫听觉低。

掩蔽特性有一点,它随频率变曲线,

多个频率共存时,曲线下面听不见。

1.2.3 视频压缩编码的有关标准简介

1.MPEG-2视频压缩编码标准简介

MPEG组织于1994年推出MPEG-2压缩标准,以实现视/音频服务与应用互操作的可能性。MPEG-2标准是针对标准数字电视和高清电视在各种应用下的压缩方案和系统层的详细规定,编码码率为3~100Mbit/s,ISO/IEC13818标准中有正式规范。MPEG-2特别适用于广播级的数字电视的编码和传输,被认定为SDTV和HDTV的编码标准。

MPEG-2视频压缩的原理是利用了图像中的两种特性:空间相关性和时间相关性。这两种相关性使得图像中存在大量的冗余信息。如果能将这些冗余信息去除,只保留少量非相关信息进行传输,就可以大大节省传输频带。

MPEG-2视频压缩编码的主要特点如下:

MPEG-2视频压缩编码首先基于最大限度地消除图像和视频图像序列自身的空间冗余度和时间冗余度。MPEG-2同时采用预测编码、变换编码和统计编码技术,它采用多种编码手段来去除系统冗余信息,主要特点是利用二维DCT(离散余弦变换)去除图像空间冗余度;利用运动补偿预测去除图像时间冗余度;利用视觉加权量化去除图像灰度冗余度;利用熵编码去除图像统计冗余度。

DCT是一个无信号损失的双向数学过程。它将空间分布的变化程度转变成重现空间分布所需的频率带宽。变换所得到的系数值既可以代表不断增加的更高的垂直和水平空间频率,也可以代表不同的水平和垂直空间频率的组合。在实际应用时,为保持信号的可逆性和无损性,常常采用更多的比特来表示DCT系数。

去除视频信号时间冗余,可使用有运动补偿的帧间预测来完成。对于活动图像,多数情况下只是其中的很少一部分图像在运动,即使有大范围的活动部分,前后帧尽管有很大区别,但移动物体本身在大多数情况下是相同的。因此只需要找到图像中某一部分运动了多少就可以在前一帧找到相应图像的内容,这个查找过程称为运动估值,其表达方式是运动矢量;而把前一帧相应的运动部分补过来,得到其剩余的不同部分的过程称为运动补偿。就这样,采用运动补偿可以有效地去除视频信号在时间方向的重复信息,达到压缩的目的。

MPEG-2视频压缩还利用了人的视觉特性。视觉对图像的不同频率成分、不同的运动速度等敏感程度不同,观察亮度细节比对色彩细节更敏锐。为压缩编码数据量,MPEG-2采用减少水平和垂直方向色度信号取样数,并通过量化,减少表示视频高频信息的比特数等技术。

实际上各种视频信息的大小和出现的概率并不均等,数字视频信号编码成数据流后,其分布也存在并可充分予以利用的统计意义上的规律性。例如按概率由低到高,分配长短不一的符号,那么也可降低数据流速率。这类压缩思想称为熵编码。

MPEG-2视频压缩采用混合编码技术,消减编码码流统计冗余度在原理上属无损处理,而抑制视频图像序列冗余度和利用视觉特性压缩数据量在原理上属有损处理。

【知识要诀】

MPEG-2标准应用广,卫星地面有线网,

多种方法去冗余,标清高清都用上。

【小知识】

由于数字视频的编码方式的不同,于是产生不同文件格式的数字视频信号。目前HDTV视频格式主要有MPEG-2-TS、MPEG-4、H.264以及WMV-HD四种。由于H.264格式推出的时间较短,因此网络上采用H.264编码的HDTV文件并不多见;WMV-HD格式是由微软公司所推出,由于WMV-HD有很高的压缩率,很快就成了HDTV视频压缩格式中的后起之秀,网上采用WMA-HD格式的HDTV文件较多。

2.MPEG-4视频压缩编码标准简介

MPEG-4与MPEG-1和MPEG-2有很大的不同,它兼顾了工具、算法、层面三个方面的编码对象,除了传统的数字视频编解码的功能之外,MPEG-4更具备了许多引人注目的功能,包括有以对象内容为基础的视频对象存取、以场景内容为基础的可升级性、视频存取、纠错能力等。

MPEG-4标准与其他标准最重要的差别是关于对象(或称“物体”、“景物”)的概念,在编码时,将一幅景物分成若干个在时间和空间上相互联系的视频、音频对象,分别编码后,再经复用传输到接收端,然后再对不同的对象分别解码,从而组合成所需要的视频和音频对象,如图1-10所示。

978-7-111-30684-9-Chapter01-10.jpg

图1-10 MPEG-4基于对象编码体系

例如,在一项有趣的演示中,一个足球比赛的场面被处理成球与其他景物分开,背景(无球的场面)作为一个广告吸引按次付费的观众,谁都能看到运动员和场地,但只有付费的观众才能看到球。

MPEG-4为了实现对象编码,引入了视频对象(VO),视频对象面(VOP)、视频对象层(VOL)的概念。属于同一对象的连续VOP,称为VO,图1-11所示为VOP概念简图。

由图1-11所知,每一个VOP都代表了图像序列中的特定内容,通过对它的轮廓、运动和纹理信息编码,可将其编码到单独的VOL。通过对所有VOP进行解码就可以重新恢复原始的图像系列。

为了支持VO单独解码,每一VO的形状、运动和纹理信息都被编码成单独的VOL。MPEG-4采用同一种算法来对每一层的形状、运动纹理信息进行编码。如果待编码的输入图像系列只包含标准的矩形帧,那就不必进行形状编码。此时,MPEG-4的视频编码算法具有与MPEG-1、MPEG-2及H.263相似的结构,这往往应用于那些对编码效率要求很高而不需要基于内容的扩展功能的场合。

978-7-111-30684-9-Chapter01-11.jpg

图1-11 VOP概念简图

978-7-111-30684-9-Chapter01-12.jpg

图1-12 MPEG-4 VOP编码框图

MPEG-4的压缩算法采用了基于块的混合DPCM/Transform编码技术,图1-12所示为VOP编码框图。

MPEG-4编码算法对第一个VOP进行帧内编码(I-VOP),而对接下来的帧采用帧间预测编码(P-VOP),同时也支持双向预测编码(B-VOP)。为了对任意形状VOP的形状,运动纹理信息编码进行编码,MPEG-4引入了“VOP图形窗”和“形状自适应”宏块栅格的概念。每一个VOP形状信息编码是在基于VOP图形窗宏块栅格的运动矢量编码之前进行的。在编码器和解码器中均可获得该VOP的形状信息。MPEG-4采用基于块的运动估计和运动补偿技术来有效去除各个独立的VOL的视频内容中的时间冗余成分,但与标准的MPEG块匹配处理技术不同的是,MPEG-4引入了形状自适应宏块栅格的概念来完成具有不同位置、大小和形状的VOP间的运动估计和运动补偿。形状自适应功能是通过图像填充技术和多边形匹配技术来实现的。纹理编码采用了基于8×8块的DCT方法,这与现有的MPEG和H.263标准相同。

【知识要诀】

MPEG-4标准第二代,对象编码受人夸,

先把图像分对象,对象不同编码改。

3.AVS数字视频编码标准简介

AVS标准是我国先进音视频编码标准工作组(AVS)制定的数字音视频编码标准。AVS成立于2002年,成员包括国内外从事数字音视频编码技术和产品研究开发的机构和企业。AVS的任务是面向我国的信息产业需求,组织制定行业和国家信源编码技术标准。

AVS标准包括9个部分,其中第2部分视频和第7部分移动视频是视频编码标准。

2003年底完成的AVS标准第2部分(AVS1-P2,以下称为AVS视频标准)主要面向高清晰度和高质量数字电视广播、数字存储媒体和其他相关应用。它具有4大特点:

(1)性能高,编码效率比MPEG-2高2倍以上,与H.264的编码效率相当。

(2)算法复杂度比H.264低。

(3)软硬件实现成本都低于H.264。

(4)专利授权模式简单,费用明显低于同类标准。

AVS标准采用了与H.264类似的技术框架,包括变换、量化、熵编码、帧内预测、帧间预测、环路滤波等技术模块。AVS标准还定义了I帧、P帧和B帧3种不同类型的图像,I帧中的宏块只进行帧内预测,P帧和B帧的宏块则需要进行帧内预测或帧间预测。AVS编码器框图如图1-13所示。

978-7-111-30684-9-Chapter01-13.jpg

图1-13 AVS编码器框图

图1-13中S0是预测模式选择开关,在AVS视频标准中,所有宏块都要进行帧内预测或帧间预测。预测残差要进行8×8整数变换(ICT)和量化,然后对量化系数进行zig-zag扫描(隔行编码块使用另一种扫描方式),得到一维排列的量化系数,最后对量化系数进行熵编码。AVS的变换和量化只需要加减法和移位操作,用16位精度即可完成。

AVS使用环路滤波器对重建图像滤波,其优点:一方面可以消除方块效应,改善重建图像的主观质量;另一方面能够提高编码效率。滤波强度可以自适应调整。

【知识要诀】

我国标准AVS,知识产权自己的,

编码效率同64,算法成本费用低。

4.新的H.264视频压缩编码标准

H.264视频压缩编码标准是由国际电信联盟标准化委员会(ITU-T)制定的,主要应用于实时视频通信领域,如电视会议等。

H.264不仅比H.263和MPEG-4节约了50%的码率,而且对网络传输具有更好的支持功能。它引入了面向IP(因特网协议)包的编码机制,有利于网络中的分组传输,支持网络中视频的流媒体传输。

H.264具有较强的抗误码特性,可适应丢包率高、干扰严重的无线信道中的视频传输。H.264支持不同网络资源下的分级编码传输,从而获得平稳的图像质量。H.264还能适应于不同网络中的视频传输,网络亲和性好。

H.264编码器框图如图1-14所示。它包括两条数据流的路径:一条“正向”路径和一条“重建”路径。

如图1-14所示,在编码器中,一个输入帧或输入场Fn被划分为以宏块为单位,进行大部分的实际编码处理。每个宏块做帧间编码或帧内编码。宏块中的各个块基于重建图像取样形成一个预测,图1-14中用P表示。在帧内模式中,采用空间预测,参考相邻块的重建图像的取样,图中的UFn代表用于预测的未加滤波的取样。在帧间模式中,预测来自两组参考图像中选出的一个或两个参考图像的运动补偿预测。图中参考图像表示为前面的编码图像Fn-1,但各个宏块分隔的预测参考可以从过去或将来的已经编码、重建和滤波的图像中选择。将当前块值减去预测值,对残差值块Dn做变换,经量化得出一组量化变换系数X,再经重新排序和熵编码。熵编码系数,以及为宏块中各个块解码所需的伴随信息(如预测模式,量化参数,运动矢量等信息),一起形成压缩码流传到网络抽象层(Network Abstraction Layer,NAL),用来传输或存储。

编码器中的解码重建为预测提供参考。系数X经反量化(Q-1)及反变换(T-1)产生残差值块Dn。预测块加到Dn产生一个重建块UFn,即原始块的解码形式,U表示它未经滤波。滤波器用来减小块效应。重建参考图像从序列Fn产生。

978-7-111-30684-9-Chapter01-14.jpg

图1-14 H.264编码器框图

T—变换编码 ME—运动估计 Q—量化 T-1—反变换 MC—运动补偿 Q-1—反量化

【知识要诀】

64标准技术新,码率较低图像真,

广电通信与存储,宽带交互网络亲。

【知识链接】

国际上数字音视频编码标准主要有两大系列。一个系列由国际标准化组织(ISO)和国际电工委员会(IEC)制定,另一个系列由国际电信联盟标准化委员会(ITU-T)制定。制定这些标准的背景有所不同,面向的主要应用也有区别。

ITU-T制定的标准包括H.261、H.263、H.264,主要应用于实时视频通信领域,如电视会议;MPEG系列标准是由ISO/IEC制定的,主要应用于视频存储(VCD、DVD)、广播电视、因特网或无线网上的流媒体等。

1.2.4 音频压缩编码的有关标准简介

1.MPEG-1音频编码标准简介

MPEG-1音频压缩标准是第一个高保真音频数据压缩国际标准。它是MPEG-1标准的第3部分(ISO/IEC11172-3)。

MPEG-1压缩声音信号采用子带编码(SBC)。先把时域中的声音数据变换到频域,再对频域内的子带分量分别进行量化和编码,然后根据心理声学模型确定量化精度,来压缩数据量。

按编码性能和复杂度的提升次序,MPEG-1声音信号编码分为3层(Layer 1、Layer 2、Layer 3),高层兼容低层。

Layer 1:每声道192kbit/s,每帧384个样本,32个等宽子带,固定分割数据块。子带编码用DCT(离散余弦变换)和FFT(快速傅里叶变换)计算子带信号量化比特数。采用基于频域掩蔽效应的心理声学模型,使量化噪声低于掩蔽阈值。量化采用带死区的线性量化器。主要用于数字盒式磁带(DCC)。

Layer 2:每声道128kbit/s,每帧1152个样本,32个子带,属不同分帧方式。采用共用频域和时域掩蔽效应的心理声学模型,并对高、中、低频段的比特分配进行限制,并对比特分配、比例因子、取样进行附加编码。Layer 2广泛用于数字电视、CD-ROM、CD-I和VCD等。

Layer 3(MP3):每声道64kbit/s。用混合滤波器组提高频率分辨率,按信号分辨率分成6×32或18×32个子带,克服平均分32个子带的Layer 1、Layer 2在中、低频段分辨率偏低的缺点。采用心理声学模型,增设不均匀量化器,量化值进行熵编码。主要用于ISDN(综合业务数字网)音频编码。

图1-15所示为MPEG-1 Layer 1、Layer 2音频压缩编码器框图。MPEG-1 Layer 1、Layer 2音频压缩编码是采用频带分割后编码的子带编码系统。输入的音频信号用滤波器组分割成等宽的32个子频带(取样频率为48 kHz时,子带宽度为750 Hz)信号,将建立在听觉特性基础上的子带信号进行自适应量化,从而可以完成人耳察觉不到量化噪声的高质量编码。

978-7-111-30684-9-Chapter01-15.jpg

图1-15 MPEG-1 Layer 1、Layer 2音频压缩编码器框图

【知识要诀】

数字音频压缩码,MPEG有算法,

分割等宽子带信,再将子带自量化,

标准定义三层次,层次越高越复杂。

2.杜比AC-3音频编码标准简介

杜比AC-3数字音频信号编码标准已被美国ATSC(先进电视制式委员会)制定的ATSC数字电视标准采用(ATSC A/52)。取样频率为48kHz,5.1声道(C、L、R、LS、RS、LFE),主音频业务码率不超过384kbit/s,单声道辅助业务不大于128kbit/s,双声道辅助业务不大于192kbit/s,主要音频业务和辅助音频业务同时解码的组合码率不大于572kbit/s。

图1-16所示为AC-3编码器功能框图。图中,AC-3编码器接受声音PCM数据,最后产生压缩数据流。分析滤波器组把音频信号的PCM样值组(块)从时域变换到频域系数,每块包含512个样值点,其中256个样值在连续的两块中是重叠的,重叠的块被一个时间窗相乘,以提高频率选择性,然后被变换到频域内。由于前后块重叠。每一个输入样值出现在连续两个变换块内。因此,变换后的变换系数可以去掉一半而变成每块包含256个变换系数,每个变换系数以二进制指数形式表示,即一个二进制指数和一个尾数。指数集反映了信号的频谱包络,对其进行编码后,可以粗略地代表信号的频谱。同时,用此频谱包络决定分配给每个尾数多少比特数。如果最终信道传输码率很低,而导致AC-3编码器溢出,此时要采用高频系数耦合技术,以进一步减少码率。最后把6块(1536个声音样值)频谱包络、粗量化的尾数以及相应的参数组成AC-3数据帧格式,连续的帧汇成了码流传输出去。

978-7-111-30684-9-Chapter01-16.jpg

图1-16 AC-3编码器原理框图

【知识要诀】

AC-3环绕声,音频压缩配高清,

抽样频率有3种,6个声道5.1称。

【知识链接】

数字电视音频信号压缩编码标准目前国际上主要有MPEG-1层2和杜比AC-3两种,日本的数字电视系统则采用了MPEG-2 AAC(高级音频编码)。电视节目的MPEG-1层2音频信号取样频率通常为32kHz、44.1kHz或48kHz,常用16bit线性量化,编码成自然二进制码。杜比AC-3电视节目伴音音频信号的取样频率允许为32kHz、44.1kHz或48kHz,常用48kHz,至少16bit量化,量化精度可达24bit,编码成自然二进制码。

我国数字电视音频信号编码标准尚未确定。目前中央电视台的SDTV节目用MPEG-1Layer 2音频编码标准播出,HDTV用杜比AC-3音频编码标准试播。

【思考题】

1.模拟信号数字化主要有哪几种处理过程

2.什么是数字电视信源编码

3.国际上数字电视信源编码主要采用哪些标准