3.2 音/视频信息处理
3.2.1 音/视频信号数字化
3.2.1.1 音频信号数字化
音频信号数字化就是将模拟的(连续的)声音波形数字化(离散化)的过程,主要包括采样频率和采样位数/采样精度(量化级)两个方面,这二者决定了数字化音频的质量。
采样频率是对声音波形每秒钟进行采样的次数。根据奈耐奎斯特采样定律,采样频率至少应该是最高声音频率的两倍。人耳听觉的频率上限在20kHz左右,为了保证声音不失真,采样频率应在40kHz左右。一般CD采用的采样频率为44.lkHz。采样频率越高,声音失真越小,但音频数据量越大,所需存储空间就越多。电话质量的语音信号频率规定在300Hz~3.4kHz,采用标准的脉冲编码调制(PCM),当采样频率为8kHz,进行8位量化时,所得数据速率为64kb/s,即一个数字话路。
对模拟音频进行采样以后,得到的只是时间上离散的采样点,要进行数字处理,还必须在幅度上将这些点进行离散。采样精度就是规定一个采样点用多少位来表示的度量。它影响着每个采样点的振幅动态响应数据范围,经常采用的有8位、12位和16位。例如,用8位量化级表示,则每个采样点可以表示256个(0~255)不同量化值,而16位量化级则可表示65536个不同量化值。可见,量化位数越高,音质就越好,但同时数据量也越大。
3.2.1.2 视频信号数字化
将模拟视频数字化可以有两种方式:复合数字化(Recombination digitalization)和分量数字化(Component digitalization)。复合数字化是先用一个高速的模/数(A/D)转换器对全彩色电视信号进行数字化,然后在数字域中分离亮度和色度,以获得YCbCr分量、YUV分量或YIQ分量,最后再转换成RGB分量。分量数字化是先把复合视频信号中的亮度和色度分离,得到YUV或YIQ分量,然后用3个模/数转换器对3个分量分别进行数字化,最后再转换成RGB分量。分量数字化是采用较多的一种模拟视频数字化方法。
分量数字化有两种方式:(1)使用相同的采样频率对图像的亮度信号和色差信号进行采样。这种方法的优点是能够保持较高的图像质量,不足之处在于将会产生巨大的数据量。(2)对亮度信号和色差信号分别采用不同的采样频率进行采样。由于人眼对色度信号的不敏感性,可以减少对色度信号的采样数据量。这种采样是实现数字视频数据压缩的一种有效途径。一般用Yn:Crn:Cbn来表示Y、Cr、Cb三个分量的采样比例,则数字视频常用的采样格式分别为:4:4:4、4:2:2、4:1:1和4:2:0四种。例如4:2:2的含义就是在每条扫描线上每4个连续的采样点取4个亮度Y样本、间隔取2个红色差Cr样本和2个蓝色差Cb样本。
在视频数字化过程中,量化位数越多,量化层次就分得越细,图像还原效果就越好,但数据量也成倍上升。一般用途的视频信号均采用8位或10位量化,而信号质量要求较高的情况下可采用12位量化。
最后介绍一下视频数字化标准:在20世纪80年代初,国际无线电咨询委员会CCIR(International Radio Consultative Committee)就制定了彩色电视图像数字化标准,称为CCIR 601标准,现改为ITU-RBT.601标准。在该标准中对数字化视频的采样频率、分辨率、帧率、采样格式以及量化范围都做了如下一些详细的规定。
采样频率:ITU-RBT.601为NTSC制、PAL制和SECAM制规定了共同的视频采样频率,方便不同制式之间的相互转化。亮度信号采样频率fs=13.5MHz,而色度信号采样频率fc=6.75MHz或13.5MHz;PAL标准的每行采样点数N=864,NTSC标准的每行采样点数N=858。对于所有制式,每个扫描行的有效样本数均为720。
分辨率和帧率:ITU-RBT.601中规定NTSC的分辨率为640×480,帧率为30fps;PAL的分辨率为768×576,帧率为25fps。
采样格式和量化范围:ITU-RBT.601中规定的采样格式和量化范围见表3.1。
表3.1 ITU-RBT.601中规定的采样格式和量化范围
3.2.2 音/视频信息的处理
3.2.2.1 音/视频主要变换
数字化后的音/视频的数据量一般比较大,通信过程中需要较多的传输带宽,不便于应急通信中信息的快速传输,因此需要对数字化后的音/视频进行压缩。下面介绍几种常用的音/视频压缩变换技术。
在音视频压缩处理中,常常需要用到几种变换,例如DCT、Gabor、K-L以及小波变换等。对这些变换的了解可以帮助我们理解音/视频编码的原理。
(1)离散余弦变换
离散余弦变换(DCT)运算简单,应用广泛。音频信号经过其变换后只有实部没有虚部,信号能量主要集中在几个变换系数上,可利用它们来表示信号的总体。长度为N的音频信号f(x)的一维DCT变换公式如下:
一维离散余弦反变换IDCT的表达式如下:
(2)Gabor变换
众所周知,在对信号的时域分析中,常常采用加窗的技术,矩形窗、汉明窗以及汉宁窗都是常用窗函数。除此之外,高斯窗也是非常重要的。利用高斯窗函数进行的短时傅里叶变换被称为Gabor变换,其在音视频信息处理中也很重要。
对于函数x(n)∈L2(R),Gabor变换的定义是:
式中,是高斯函数,a是大于零的固定常数。
由于,因此。这表明,信号x(n)的Gabor变换是对任何a>0在时间τ=n附近对x(n)傅里叶变换的局部化,可以完整给出x(n)频谱的局部信息,这充分体现了Gabor变换在时间域的局部化思想。
(3)K-L变换
在日常生活中,我们看到的景色都是彩色的,并且其灰度、色彩信号的分布大致上是一个随机场。如果简单地用正弦波或者是方波来逼近信号,效果会很差。K-L变换在这方面就具有优势。它的核心原理是同一景色的不同图像,K-L变换的基本波形不同。这样逼近效果就较好。而且K-L变换在变换域里能量集中,几乎集中到了少数几个变换系数上,并能利用这几个系数就恢复出效果较好的图像,故具有更高的编码效率和更小的误差。
离散K-L变换表达式如下:
Y=A(X-mx)
式中,X是对原始图像切分为块以后堆叠成的向量。mx=E(X)是向量X的均值。X-mx是中心化图像向量,A是K-L变换矩阵,是由特征向量e作为变换矩阵的行构成的N2×N2方阵。
(4)小波变换
小波变换(Wavelet Transform)是近年来发展起来的在音视频信息处理中应用很广泛的一种数学分析方法。它有很多优异的性能。例如,它是一个满足能量守恒定律的线性变换,可将信号分解成对空间和尺度(即时间和频率)的独立分量,同时又不失原信号所包含的信息;可为多分辨率分析、时频分析和子带编码建立统一的分析方法等。所谓小波,就是小的波形。“小”指其具有衰减性,“波”指其波动性,具有振幅正负相间的振荡形式。如果用数学表达式来描述小波信号,就是在函数空间L2(R)中满足下述条件的信号ψ(t)。
式中,R*表示非零实数全体,而Ψ(ejw)为ψ(t)的频域表达式。ψ(t)被称为小波母函数。对于任意实数对(a,b),称如下形式的函数为由小波母函数ψ(t)生成的依赖于参数(a,b)的连续小波函数,简称为小波。
对于平方可积的信号x(t),其小波变换的定义为
以上介绍的是一维音频的变换,将其推广到二维就是图像的变换,读者可参看相关书籍。视频是由一帧一帧图像组成的,因此对视频的变换可由图像的变换得到。
3.2.2.2 音/视频主要编码方法
下面介绍压缩编码的最基本的思想和方法,无论是音频还是视频的压缩都用到了某一种或者某几种压缩编码方法。数据压缩技术已有几十年的发展历史,有几种不同的分类方法,按编码失真程度或者说按压缩过程的可逆性可将数据压缩分为两类:无损压缩和有损压缩;按压缩技术所采用的方法可分为预测编码、变换编码、统计编码几大类。
(1)无损压缩。也可以称为冗余度压缩,原始数据可以完全地从压缩数据中恢复出来。这种压缩方法的基本思想是去除或尽量去除数据中重复和冗余的数据,而不丢失任何其中的信息,从而确保被压缩了的数据还原后和压缩前是完全一致的。常用的无损压缩算法有哈夫曼算法(Huffman)和LZW(Lempel-Ziv & Welch)算法。
(2)有损压缩。这种压缩技术是建立在人耳听觉、视觉特性的基础上的,是从声音怎样被听到、视频怎样被看到的基础上来减少数据率,利用人的听觉、视觉不能检测某些信号损失,从而可以大量减少比特率。
按照音/视频压缩编码方式的不同,又可将所用编码方法大致划分为时域编码(包括预测编码、增量编码)、频域编码(包括变换编码、子带编码)、统计编码(熵编码、哈夫曼编码)以及多种技术相互融合的混合编码等。对于各种不同的压缩编码方法,其算法的复杂程度(包括时间复杂度和空间复杂度)、重建音频信号的质量、算法效率(即压缩比),编/解码延时等都有很大的不同,因此其应用场合也各不相同。
(3)波形编码。波形编码是指直接对音频信号时域或频域波形采样值进行编码。它主要利用音频样值的幅度分布规律和相邻样值间的相关性进行压缩,目标是力图使重建后的音频信号的波形与原音频信号波形保持一致。由于这种编码系统保留了信号原始样值的细节变化,从而保留了信号的各种过渡特征,所以波形编码适应性强,算法复杂度低,编/解码延时短,重建音频信号质量一般较高,但压缩比不高。常见的波形编码方法有自适应差分脉冲编码调制(Adaptive Differential Pulse Code Modulatinn,ADPCM)、子带编码(SubBand Coding,SBC)、自适应变换编码(Adaptive Transform Coding,ATC)等。其中,子带编码和自适应变换编码利用了人耳的听觉感知特性,在音频压缩编码中己得到广泛应用。
(4)参数编码。参数编码根据对声音形成机理的分析,在以重建语音信号具有足够的可懂度的原则上,通过建立语音信号的产生模型,提取代表语音信号特征的参数进行编码,而不要求在波形上与原始信号相一致。常用的音频参数有共振峰、线性预测系数、滤波器组等。这种编码技术的优点是压缩比高,但计算量大,重建音频信号的质量较差,自然度低,不适合于高保真度要求的场合,一般多用于语音信号的压缩。采用参数编码的语音编/解码器称为声码器(Vocoder),如线性预测编码(Linear Predictive Coding,LPC)声码器、通道声码器、共振峰声码器等。
(5)统计编码。这种编码方式是建立在随机过程的统计特性的基础上的。因为日常的音频信号或者视频信号都可以看成是一个随机信号序列,这些随机的信号序列在时间和空间上均具有其相对应的统计特性。例如图像的统计特性就是研究图像灰度或者彩色信号值在统计意义上的分布。根据统计特性的冗余度进行压缩编码。
(6)预测编码。预测编码分为线性预测和非线性预测两种方法,是最简单和实用的视频压缩编码方法,这时压缩编码后传输的并不是像素本身的取样幅值,而是该取样的预测值和实际值的差值。为什么取像素预测值与实际值之差作为传输的信号?因为大量统计表明,同一幅图像的邻近像素之间有着相关性,或者说这些像素值相似。邻近像素之间发生突变或“很不相似”概率很小。而且同帧图像中邻近行之间对应位置的像素之间也有较强的相关性。这样这个像素预测值与实际值的差就是一个很小的量,需要的量化比特数也就很少。人们可以利用这些性质进行视频压缩编码。
(7)变换编码。变换编码不是直接对空域图像信号编码,而是首先将空域图像信号映射变换到另一个正交矢量空间(变换域或频域),然后对这些变换系数进行编码处理。这种变换编码进行压缩的基本思想是信号在原来时域中得到的数据之间相关性强,数据冗余度大,而转化到变换域以后,数据相关性大大降低,数据冗余量减少,参数独立,从而为压缩数据提供了可能。从信息论的角度来看,变换编码减少了信号熵,从而可以进行有效编码。常用的变换算法有K-L变换和DCT(离散余弦)变换。
(8)子带编码。子带编码是基于整个频谱上信号电平的不平均分布来进行编码的。其基本原理就是利用带通滤波器组把信号频带分割成若干子频带,通过等效于单边带调幅的调制过程,将各子带搬移到零频率附近以得到低通表示后,再以奈奎斯特速率对各子带进行取样,并对取样值进行通常的数字编码。在编码时如果对不同子带合理地分配不同的比特数,就有可能分别控制各子带的量化电平数目以及相应的量化误差,使得码率更精确地与信源统计特性相匹配,从而在总体上减少比特数,达到压缩目的。
(9)量化。这里的量化,不是指模/数转换器采样之后的量化,而是指在压缩编码过程中,对输入码,或者是输入码经过正交变换、差分或预测处理以后得到的正交变换系数、差值、预测处理误差的量化。量化就会带来量化误差,即因为量化所引起的信号原来的值与量化之后值的差值。显然量化误差越小,经过量化以后的信号就越能够代表真实的信号。在数据压缩技术中一种常用的量化方法就是压扩量化,即考虑信号在各个幅值区间上的概率分布,在概率密度较大的地方量化级数多,在概率分布稀疏的地方量化级数少,最后从总体上达到减少数据量的目的。此外,还有一种压缩编码中常用的量化方法,即矢量量化,其基本思想就是将若干个数据组成一个矢量,在空间中固定了的若干个标准的矢量叫做码本。量化的过程就是一个分组的过程,将需要量化的矢量分到空间的某一个码本中,让他们成为一组,这样量化的结果就是该矢量的各个分量都被码本中的各个分量所代替。
3.2.3 音/视频编码标准
3.2.3.1 音频压缩编码标准
音频信号的压缩编码主要包括ITU制定的G.7XX系列和ISO/IEC制定的MPEG-X系列标准,按波形编码、参数编码和混合编码三类编码方法分类的具有代表性的数字音频编码标准如表3.2所示。
表3.2 数字音频编码标准简表
(1)G.7XX系列音频压缩编码标准
① G.711标准
G.711标准是针对电话质量的脉冲编码调制(Pulse Code Modulation,PCM)语音压缩标准,从压缩编码的评价来看,这种编码方法的语音质量最好,算法延迟几乎可以忽略不计,但缺点是压缩率很有限。其采样频率为8kHz,每个样值采用8位二进制编码,速率为64kb/s。推荐使用A律或μ律的非线性压扩技术。
G.711编码是最基本的音频压缩算法,属于波形编码。波形编/解码不考虑语音信号的产生机理,只是尽可能产生与原始信号接近的重构信号。因此,编/解码器的复杂程度相对较低,在数据速率为16kb/s以上时,能保证较高的语音质量。当低于该速率时,语音质量急剧下降。
G.711标准规定选用不同解码规则的国家之间,数据通路传输按A律解码的信号。使用μ律的国家应进行转换,标准给出了μ-A编码的对应表。标准还规定,在物理介质上连续传输时,符号位在前,最低有效位在后。本标准广泛用于数字语音编码。
② G.721标准
制定G.721标准的主要目的是用于64kb/s的A律和μ律PCM与32kb/s的自适应差分脉冲编码调制(Adaptive Differential Pulse Code Modulation,ADPCM)之间的转换。它基于ADPCM技术,采样频率为8kHz,每个样值与预测值的差值用4位编码,其编码速率为32kb/s。利用G.721可以实现对已有PCM的信道进行扩容,即把2个2048kb/s(30路)PCM基群信号转换成一个2048kb/s(60路)ADPCM信号。
ADPCM是一种对中等质量音频信号进行高效编码的有效算法之一,它不仅适用于语音压缩,而且也适用于调幅广播质量的音频压缩和CD-I音频压缩等应用。此编码方法的语音质量很好,系统延时可忽略不计。
③ G.722标准
G.722标准是针对调幅广播质量的音频信号压缩制定的标准,旨在提供比G.711或G.721标准压缩技术更高的音质。G.722编码采用了高、低两个子带内的ADPCM方案,即子带ADPCM(Sub-Band Adaptive Differential Pulse Code Modulation,SB-ADPCM)编码方案。音频信号频率范围为50Hz~7kHz,高、低子带的划分以4kHz为界,每个子带内采用类似于G.721标准的ADPCM编码。在标准模式下,采样频率为16kHz,每个样值量化到14位,压缩后的速率为48kb/s、56kb/s、64kb/s。
G.722能将224kb/s的调幅广播质量的音频信号压缩为64kb/s,主要用于视听多媒体和会议电视等。
④ G.728标准
G.728标准将语音信号压缩至16kb/s,其质量与32kb/s的G.721标准相当。该标准的技术基础是美国AT&T公司贝尔实验室提出的低延时码激励线性预测(Low-Delay Code Excited Linear Prediction,LD-CELP)算法,考虑了人耳的听觉特性。码激励线性预测(Code Excited Linear Prediction,CELP)是综合了波形编码和参数编码的混合编码,同时还采用了矢量量化的压缩算法。
G.728标准的语音输入为5个采样值,附加上激励信号和波形与增益表达信息外,还包括线性预测系数、音调预测系数、音调增益辅助信息等信息,这些信息的基本CELP结构不同。另外,G.721方案是每个采样值进行预测并自适应量化,G.728则是对所有采样值以矢量为单位进行处理,并且应用了线性预测和增益自适应的最新理论与成果。编码时将事先准备好的激励矢量的所有组合合成语音,然后将其结果与被编码的输入信号相比较,选出听觉加权后距离最小的码元作为信息传递。而合成器则将发送端编码传输所制定的激励矢量、3比特增益码和自身合成过的语音波形一起合成为语音。
G.728是低速率ISDN可视电话的推荐语音编码器,速率为56~128kb/s。它具有反向自适应性,可实现低延时,但复杂度较高。
⑤ G.729标准
G.729标准是为低码率应用设计而制定的语音压缩标准,主要应用目标是第一代数字移动蜂窝移动电话,速率为8kb/s,采用共轭结构代数码本激励线性预测(Conjugate Structure Algebraic Code Excited Linear Prediction,CS-ACELP)编码算法,能达到32kb/s的ADPCM语音质量。
G.729编码器、解码器的合成语音质量较好,实现复杂度较低,可在现有DSP上实现。这种编、解码方案主要用于个人移动通信、低轨道卫星通信系统和无线通信等领域。
由于具有低延迟特性(15ms),G.729标准已经广泛应用于IP电话、会议电视、数字音视频监控等领域中。
⑥ G.723.1标准
G.723.1标准主要用于各种网络环境中的多媒体通信,定义了5.3kb/s和6.3kb/s两种传输速率,其中5.3kb/s速率方法采用的是代数码激励线性预测(Algebraic Code Excited Linear Prediction,ACELP)技术,6.3kb/s速率方法采用的是多脉冲最大似然量化(Multipulse Maximum Likelihood Quantization,MP-MLQ)技术。重建的音质可以与G.729标准在8kb/s上的音质相比拟,但编码延时比G.729标准稍长。
G.723.1算法的计算量相当大,但它可以在相当低的码率上,达到主观评分(MOS)3.5分以上的质量。该标准在低码率的多媒体通信中占有重要的地位,特别是在公用电话网、移动网和互联网上的语音通信中都得到了广泛的应用。
(2)GSM音频编码标准
GSM是欧洲电信管理局(European Telecommunication Administration)下的一个工作小组CEPT-CCH-GSM(Group Special Mobile)的缩写。GSM是欧洲采用的电话的压缩标准,GSM采用了长时预测规则码激励(Regular Pulse Excitation/Long Term Prediction,RPE-LTP)算法,采样频率为8kHz,运行速率为13kb/s。
由于GSM在参数编码过程中采用了主观加权最小均方误差准则逼近原始波形,具有原始波形的特点,因此有较好的自然度,并对噪声及多人讲话环境不敏感。同时,它采用了长时预测、对数面积比(LAR)量化等一系列措施,使其具有较好的语音质量,其主观评分(MOS)达3.8。
(3)MPEG-X系列音频压缩编码标准
① MPEG-1音频编码
MPEG-1音频系统是MPEG-1中有关音频部分的标准(ISO/IEC 11172-3),可以独立地应用。MPEG-1 Audio是世界上第一个高保真声音数据压缩国际标准,并已经成功地应用于VCD、CD-ROM、ISDN、视频游戏及数字音频广播中。它支持每声道比特率为32~224kb/s的32kHz、44.1kHz和48kHz的PCM数据,也可以支持带宽为1.41Mb/s下CD机的音频编码,以及比特率在64~448kb/s范围内的立体声。
MPEG-1 Audio针对20~20000Hz的宽带声音进行编码,采样频率为48kHz、采样精度为16位的立体声声音数据压缩到256kb/s时,即在6:1的压缩率下,即使是专业测试员,也很难分辨出是原始声音还是解压恢复的声音。
MPEG-1音频标准应用了感知编码和子带编码模型来对声音数据进行压缩,其基础是自适应声音掩蔽特性的通用子带综合编码和复用(Masking pattern adapted Universal Sub-band Integrated Coding And Multiplexing,MUSICAM)技术以及自适应频率感知熵编码(Adaptive Spectral Perceptual Entropy Coding,ASPEC)技术。它的输入是线性PCM信号,采样频率为32kHz、44.1kHz或48kHz,输出速率为32~384kb/s。它提供3个独立的压缩层次:层1(Layer1)、层2(Layer2)和层3(Layer3),随着层次的增加,复杂度增加,但各层次间具有兼容性,即层3的解码器可以对层2或层1编码的码流进行解码,用户对层次的选择可在复杂性和声音质量之间进行权衡。层1的复杂度最小,压缩率为4:1,编码器的输出速率为384kb/s,主要用于小型数字盒式磁带(Digital Compact Cassette,DCC);层2采用MUSICAM压缩算法来处理较低的数据率,复杂度中等,压缩率为6:1~8:1,编码器的输出速率为192~256kb/s,其应用主要包括数字声音广播(Digital Broadcast Audio,DBA)、数字音乐、CD-I(Compact Disc-Interactive)和VCD(Video Compact Disc)等;层3(简称为MP3)是MPEG音频系列性能最好的方案,采用MUSICAM和ASPEC两种算法的结合,复杂度最高,压缩率10:1~12:1,编码器的输出速率为每声道64kb/s,其音质非常接近于CD音乐的水平,主要应用于ISDN上的声音传输。
② MPEG-2音频编码
MPEG-2标准委员会定义了两种声音压缩格式:一种称为MPEG-2 Audio,与MPEG-1 Audio是兼容的,称为MPEG-2 BC(Backward Compatible);另一种称为MPEG-2 AAC(Advanced Audio Coding),与MPEG-1声音格式不兼容,称为非后向兼容MPEG-2 NBC(Non-Backward Compatible)标准。
MPEG-2 BC即ISO/IEC 13818-3,是一种多声道环绕声音频压缩编码标准,支持线性PCM和杜比(Dolby)AC-3,使用与MPEG-1音频标准相同种类的编码器、解码器,层1、层2、层3的结构也相同,它们之间的不同之处如表3.3所示。
表3.3 MPEG-2 Audio与MPEG-1 Audio的声音数据规格
MPEG-2 AAC即ISO/IEC 13818-7,是一种非常灵活的声音感知编码标准,主要使用听觉系统的掩蔽特性来减少声音的数据量,并且通过把量化噪声分散到各个子带中,用全局信号把噪声掩蔽掉。MPEG-2 AAC支持的采样频率为8~96kHz,编码器的音源可以是单声道、立体声和多声道的声音,多声道扬声器的数目、位置及前方、侧面和后方的声道数都可以设定,因此能支持更灵活的多声道构成。MPEG-2 AAC可支持48个主声道、16个低频增强(Low Frequency Enhancement,LFE)、16个配音声道(overdub channel)或称为多语言声道(multilingual channel)和16个数据流。MPEG-2 AAC在压缩比为11:1,即每个声道的数码率为(44.1×16)kb/s/11=64kb/s,5个声道的总数码率为320kb/s的情况下,很难区分解码还原后的声音与原始声音。与MPEG-1的层2相比,MPEG-2 AAC的压缩比可提高1倍,而且音质更好;在质量相同的情况下,MPEG-2 AAC的数码率大约是MPEG-1层3的70%。
③ MPEG-4音频编码
MPEG-4标准的目标是提供交互式多媒体应用。与以前的音频编码标准相比,MPEG-4增加了许多新的关于合成内容及场景描述等领域的工作,增加了诸如可分级性、音调变化、可编辑性及延迟等新功能,引入了音频对象(Audio Object,AO)的概念。其优越之处是支持自然声音、合成声音以及自然和合成声音结合在一起的合成/自然混合编码(Synthetic/Natural Hybrid Coding,SNHC),并以算法和工具形式对AO进行压缩和控制。
(4)杜比AC-3编码
Dolby AC-3是一种灵活的数字音频压缩编码技术,由美国Dolby实验室开发。AC-3充分利用了人耳的听觉模型,针对不同性质的信号采取相应有效的算法,并具有将多种声轨格式编码为一种低码率比特流的能力。可支持8种不同的声道配置方式(从单声道、立体声到环绕声),48kHz、44.1kHz或32kHz三种采样频率,所支持的码率从32kb/s~640kb/s不等,以适应不同需要。
Dolby AC-3编码系统属于感知编码器,拥有普通的低码率编/解码所没有的许多特性,包括适用于消费类音频回放系统的动态范围压缩特性、对话归一(Dialog Normalization)以及缩混特性(Downmixing)。其中,缩混特性可以将多声道音频转换为特定数目的声道输出。
Dolby AC-3环绕声系统共有6个完全独立的声音声道:3个位于前方的左、右和中置声道以及2个位于后方的左、右环绕声道,这5个声道皆为全频带的(20Hz ~20kHz);另外1个超低音声道,其频率范围只有20~120Hz,称之为“0.1”声道,加上前面5个声道就构成了杜比数字(AC-3)的5.1声道。Dolby AC-3可以把5个独立的全频带和1个超低音声道的信号实行统一编码,成为单一的复合数据流。各声道间的隔离度高达90dB,两个环绕声道互相独立实现了立体声化,超低音声道的音量可独立控制。
美国的HDTV伴音就采用了Dolby AC-3方案。
3.2.3.2 视频压缩编码标准
视频压缩编码标准的制定工作主要由ISO和ITU完成,由ITU组织制定的标准主要是针对实时视频通信的应用,如视频会议和可视电话等,它们以H.26X命名;而由ISO/IEC MPEG组成制定的标准主要针对视频数据的存储(如DVD)、广播电视和视频流的网络传输等应用,它们以MPEG-X命名,如表3.4所示。
表3.4 视频压缩编码国际标准发展列表
数字视频图像的压缩编码标准有着广泛的应用,这些应用按照其视频质量大致可分为三类:
•低质量视频:画面较小(通常为QCIF或CIF格式),帧率为5~10帧/秒,可为黑白或彩色视频。典型应用包括可视电话、网络视频游戏、视频邮件等。
•中等质量的视频:画面中等(通常为CIF或CCIR601格式),帧率为25~30帧/秒,多为彩色视频。典型应用包括会议电视、远程教育、远程医疗等。
•高质量视频:画面较大(通常为CCIR601至HDTV格式),帧率≥25帧/秒,多为高质量彩色视频。典型应用包括广播质量的普通数字电视、HDTV等。
常见视频编码标准的视频信号格式如表3.5所示。
表3.5 常见视频编码标准的视频信号格式
(1)H.26X系列视频压缩编码标准
① H.261标准
H.261标准即“p×64kb/s(p=1~30)视听业务的视频编/解码器”,是国际上针对动态图像的第一个视频压缩编码标准,首次尝试通过数字压缩技术实现数字图像的实时传输——在N-ISDN上实时地传输多媒体信息,主要应用于会议电视和可视电话。当p=1或2时仅支持QCIF视频格式,用于帧率较低的可视电话;当p≥6时可支持CIF格式的会议电视。
H.261的核心技术是采用运动补偿的帧间预测、DCT、标量量化和可变长编码(Variable Length Coding,VLC)的混合编码算法,这些算法必须满足图像和语音的密切配合,即具有强实时性、同步性以及最小的延迟时间。编码对每帧图像进行4个层次的处理,最小处理单元为8×8像素块,然后按4:1:1的比例对亮度和色度块(Block,B)进行抽样,组成一个宏块(Macro Block,MB);一定数量的MB构成块组(Group Of Block,GOB);若干个GOB构成一帧图像。每一个层次都有说明该层次信息的头,编码后的数据和头信息逐层复用就构成了H.261的视频序列码流。
② H.263、H.263+和H.263++标准
H.263是一种码率低于64kb/s的甚低码率视频压缩编码标准,该标准不仅着眼于利用PSTN传输,而且兼顾GSTN移动通信等无线业务。H.263已被多个多媒体终端标准所采纳,包括支持PSTN和无线网络的H.324,支持N-ISDN的H.320,支持B-ISDN的H.310等。
H.263采用的是基于运动补偿的DPCM的混合编码,在运动矢量搜索的基础上进行运动补偿,然后运用DCT变换和“Z”字形扫描游程编码,从而得到输出码流。H.263视频编码器的基本结构与H.261相似,但H.263除了支持H.261中的图像格式QCIF和CIF外,还增加了S-QCIF、、4CIF和16CIF三种图像格式。为进一步改善图像质量,提高压缩比,在H.261的基础上,增加了半像素运动估计以及不受限的运动矢量、PB帧模式、先进的预测模式和基于语法的算术编码模式4个可选项。
H.263+和H.263++是H.263的修订版本:H.263+在H.263的基础上增加了12个新的高级模式,并修正了H.263中的一个模式;H.263++在H.263+的基础上增加了3个高级模式。从而使其应用范围进一步扩大,压缩效率、抗误码性能和重建图像的主观质量等都得到了提高。
③ H.264
ISO MPEG和ITU-T的视频编码专家组于2003年联合制定了比MPEG和H.263性能更好的视频压缩编码标准,这个标准被ITU-T称为H.264,被ISO称为AVC(Advanced Video Coding)标准,是MPEG-4的第10部分,简称为H.264/AVC。H.264的压缩性能约比MPEG-4和H.263提高1倍,而且在恶劣的网络传输环境下,具有较高的抗误码性能。
H.264标准压缩系统由视频编码层(Video Coding Layer,VCL)和网络提取层(Network Abstraction Layer,NAL)组成,其中VCL负责高效率的视频压缩,NAL负责以网络所要求的恰当方式对数据进行打包和传输。
H.264标准规定了3个档次:基本档次、主要档次和扩展档次,每个档次都定义了一系列的编码工具或算法。低于1Mb/s的低时延会话业务使用基本档次,具体应用有H.320会话视频业务、3GPP会话H.324/M业务、基于IP/RTP的H.323会话业务和使用IP/RTP及SIP的3GPP会话业务。带宽为1~8Mb/s、时延为0.5~2s的娱乐视频应用使用主要档次,具体应用有广播通信、DVD和不同信道上的VOD。带宽为50kb/s~1.5Mb/s、时延为2s或以上的流媒体业务使用基本档次或扩展档次,例如:3GPP的流媒体业务使用基本档次,有线Internet流媒体业务使用扩展档次。其他低比特率和无时延限制的业务可以任意使用档次,具体应用有3GPP多媒体消息业务和视频邮件。
(2)MPEG-X系列视频压缩编码标准
MPEG-1和MPEG-2是MPEG组织制定的第一代视/音频压缩标准,为VCD、DVD及数字电视和高清晰度电视等产业的飞速发展打下了牢固的基础。MPEG-4是基于第二代视/音频编码技术制定的压缩标准,以视听媒体对象为基本单元,实现数字视/音频和图形合成应用,以及交互式多媒体集成,己经在流式媒体服务等领域开始得到应用。MPEG-7是多媒体内容描述标准,支持对多媒体资源的组织管理、搜索、过滤、检索。MPEG-21由MPEG-7发展而来,它的重点是建立统一的多媒体框架,为从多媒体内容发布到消费所涉及的所有标准提供基础体系,支持连接全球网络的各种设备透明地访问各种多媒体资源。
① MPEG-1标准
MPEG-1是面向数字存储的运动图像及其伴音的编码标准。与视频会议的标准不同,MPEG倾向于控制质量而不是控制比特率。它规定了某些参数来得到一定的质量水平而不是调整系统在特定的比特率(例如ISDN信道的带宽)下工作,因此MPEG-1和H.261所用的编码方法有显著的不同。其中最主要的差别是H.261有两种帧:intra帧(帧内)和inter帧(帧间),而MPEG-1主要采用了3种帧——I帧、P帧和B帧,进行前向、后向和双向预测。I帧与intra帧类似,在编码时仅使用其自身的信息,它们提供编码序列的直接存取访问点;P帧的编码参考过去的I帧或P帧做运动补偿预测,对前向预测误差进行编码;B帧的编码则既参考过去的,又参考将来的I帧和P帧进行双向预测补偿编码。相比之下,MPEG-1提供了更高的压缩率,即将分辨率为360×240像素、传输速率为30帧/秒的图像压缩到1.5Mb/s,同时保持了图像的高质量。
MPEG-1的码流分为六层,每一层都支持一个确定的函数,或者是一个信号处理函数(DCT、MC),或者是一个逻辑函数(同步、随机存储点)等。MPEG-1支持的编辑单位是图像组和音频帧,通过对包头图像组的信息和音频帧头进行修改,可以达到对视频信号的剪接功能。另外,MPEG-1标准也提供了很多备选模式以供用户根据实际需要进行配置。
MPEG-1压缩技术已广泛地应用于VCD制作、图像监控等领域。
② MPEG-2标准
MPEG-2是广播系统压缩编码标准,它首先保证与MPEG-1视频体系向下兼客,其分辨率要求有低(352×288像素)、中(720×576像素)、次高(1440×1152像素)、高(1920×1152像素)不同档次,传输率为1.5~100Mb/s。与MPEG-1标准相比,只有达到4Mb/s以上的MPEG-2数字图像才能明显看出比MPEG-1的质量好。
MPEG-2在MPEG-1的基础上做了相应的扩展,从多方面提高了编码参数的灵活性以及编码性能。例如,增加了处理隔行扫描视频信号的能力,采用更高的色度信号采样,可伸缩的视频流编码等。因此,MPEG-2具有广阔的应用前景,它除了用于DVD外,还可以为广播、有线电视网、电缆网络以及卫星直播提供广播级的数字视频。现在的VOD视频点播系统和HDTV高清晰度电视系统都是采用MPEG-2的视频标准。
MPEG-2的视频流数据结构是分层的比特流结构,第一层称为基本层,它可以独立解码,其他层称为增强层,增强层的解码依赖于基本层。MPEG-2基本层的结构与MPEG-1相一致,包括视频序列层、图像组块层、宏块层和块层。视频序列处于最高层,视频序列从视频序列头开始,后面紧接着一系列数据单元。MPEG-2适于序列头中除了包括序列头函数外,还包括序列扩展函数的情况,而MPEG-1只支持序列头函数。另外,为了提供随机访问功能,在MPEG-2编码流中允许有重复序列头出现,重复序列头只可以在I帧或P帧前面出现,不能在B帧前面出现。I帧可以解决视频序列的随机访问问题,如节目重播、快进播放或快退播放等。
③ MPEG-4标准
MPEG-4是基于对象的低码率视频压缩编码标准。MPEG组织的初衷是制定一个新的标准以针对视频会议、视频电话的超低比特率(64kb/s以下)编码的需求,并打算采用第二代压缩编码算法,以支持甚低码率的应用。但在制定过程中,MPEG组织深深感到人们对多媒体信息特别是对视频信息的需求由播放型转向了基于内容的访问、检索和操作,所以修改了计划,制定了现在的MPEG-4。
MPEG-4新的目标被定义为:支持多种多媒体应用,特别是多媒体信息基于内容的检索和访问,可根据应用的不同要求,现场配置解码器。编码系统也是开放的,可以随时加入新的有效的算法模块。与前面提到的MPEG-1、MPEG-2标准不同,MPEG-4为多媒体数据压缩提供了一个更为广阔的平台。它更多定义的是一种格式、一种架构,而不是具体的算法。它可以将各种各样的多媒体技术充分利用起来,包括压缩本身的一些工具、算法,也包括图像合成、语音合成等技术。
MPEG-4标准的一个显著特点是:既可用于4Mb/s高码率的视频压缩编码,又可用于5~64kb/s的低码率的视频压缩编码;既可用于传统的矩形帧图像,又可用于任意形状的视频对象(Video Object,VO)压缩编码。另外,MPEG-4采用基于对象的编码,突破了过去MPEG-1和MPEG-2以方形块处理图像的方法,即把一段视频序列看成由不同的视频对象VO组成的,VO可以是任意形状的视频内容,也可以是传统的矩形视频帧。每个VO在某个特定时刻的实例成为视频对象面VOP,编码器根据实际情况对各个VOP或只对一些感兴趣的VOP进行编码。也就是说,MPEG-4用VOP代替了传统的矩形作为编码对象,用形状-运动-纹理信息代替H.263等传统视频编码采用的运动-纹理信息来表示视频。MPEG-4支持3种图像帧模式:I-VOP(帧内)、P-VOP(帧间)和B-VOP(帧间双向),其中B-VOP可单独编码。MPEG-4编码仍按宏块进行,采用形状编码、预测编码、基于DCT的纹理编码和混合编码方法。
MPEG-4标准在多媒体环境下提供了一个基于不同对象的视频描述方法,包括自然或人工合成视觉目标的压缩、时空可伸缩、差错恢复的算法等一整套技术以满足多媒体、网络服务商和最终用户的要求,从而实现在有线和无线通信网、Internet 上传输实时视频数据的功能。
MPEG-4标准的基于对象的图像处理方法将成为视频压缩领域的主要发展方向。
④ MPEG-7标准
作为MPEG家庭中的一个新成员,MPEG-7的正式名称叫做“多媒体内容描述接口”,它对各种类型的多媒体信息规定一种标准化的描述,这种描述与多媒体信息的内容本身一起,支持用户对其感兴趣的各种“资料”进行快速、有效的检索。
MPEG-7的这种标准化描述可以加到任何类型的多媒体资料上,不管多媒体资料的表达格式或压缩形式如何,只要加上了这种标准化描述的多媒体数据就可以被索引和检索了。因此,它可以被用在现有的MPEG-2和MPEG-4传输系统中。
MPEG-7的应用领域包括:数字图书馆(如图像目录、音乐词典等),多媒体目录服务(如黄页),广播媒体的选择(如无线电频道、TV频道等),多媒体编辑(如个人电子新闻服务、多媒体创作等)。与以前的MPEG标准一样,MPEG-7只标准化它的码流语法,即指定解码器的标准,而不包括特征提取和检索引擎。这样做可以使这些算法的新进展及时得到推广和应用,使厂家在这些算法中体现自己的特色,充分发挥自身优势,在特征及其提取、查询接口、检索引擎、索引等方面作进一步研究。
(3)JPEG-X系列视频压缩编码标准
① JPEG标准
JPEG是联合图像专家组(Joint Photograghic Expert Group)的简称,它是由国际标准组织ISO和国际电话电报咨询委员会CCITT建立的,从事静态图像压缩标准制定的委员会。现在人们也用JPEG表示静态图像压缩标准,其国际标准号为ISO/IEC 10918。由于JPEG标准具有高压缩比,使得它广泛应用于多媒体和网络传输中。
JPEG是用于彩色和灰度静止图像的一种完善的有损/无损压缩方法,对相邻像素颜色相近的连续色调图像的处理效果很好,而用于处理二值图像效果较差。JPEG是一种图像压缩方法,它对一些图像特征如像素宽高比、彩色空间或位图行的交织方式等并未作严格的限制。
JPEG标准在压缩与解码的处理过程中,可以采用无损和有损两种方式。用户能够根据需要调整压缩参数,以尽量减少图像质量的降低而使压缩比增大。它具有适中的计算复杂度,从而使得压缩算法既可以用软件实现,也可以用硬件实现,并具有较好的实用性能。
JPEG标准中实际定义了3种编码系统:(a)基于DCT的有损编码基本系统;(b)用于高压缩比、高精度或渐进重建应用的扩展编码系统;(c)用于无失真应用场合的无损系统。
大部分应用场合所遇到的都是JPEG基本系统压缩的图像,例如,在Internet的网页图像、数码照相机照片等。
② JPEG-LS标准
JPEG-LS是由ISO提出的另一种用于连续色调图像无损压缩的标准,其全称为Information technology-Lossless and nearlossless compression of continuous-tone still images,即无损和近无损连续色调静止图像的压缩,适应于灰度和彩色图像。这里的近无损是指重建采样值的误差在预先定义的误差范围内。
③ JPEG-2000标准
JPEG-2000采用全帧离散小波变换(DWT)取代了JPEG基本系统中的基于子块的DCT变换。由于DWT自身具有多分辨率图像表示性能,并且它可以大范围地去除图像的相关性,将图像能量分布更好地集中,因此压缩效率得到提高。同时,使用整数DWT滤波器,在单一码流中可以同时实现有损和无损压缩。
JPEG-2000将JPEG编码方式、JBIG编码方式和JPEG-LS统一起来,成为应对各种图像的通用编码方式。