多媒体应用技术(第2版)
上QQ阅读APP看书,第一时间看更新

2.2 数字音频的获取

音频信息处理主要包括音频信号的数字化和音频信息的压缩两大技术,图2.4为音频信息处理框图。模拟信号很容易受到电子干扰,因此随着技术的发展,声音信号就逐渐过渡到了数字存储阶段,A/D转换和D/A转换技术便应运而生。A/D转换就是把模拟信号转换成数字信号,模拟电信号变为由0和1组成的信号。数字化的声音信息使计算机能够进行识别、处理和压缩,现在几乎所有的专业化声音录制器、编辑器都是数字的。因此,数字音频的获取实际上就是音频信号的数字化过程,这一过程将模拟音频信号转换成有限个数字表示的离散序列,即数字音频序列。数字化过程涉及模拟音频信号的采样、量化和编码。对同一音频信号采用不同的采样、量化和编码方式,就可形成多种形式的数字音频。

图2.4 音频信息处理框图

2.2.1 采样

所谓采样(Sampling),就是在某些特定的时刻对模拟信号进行取值,如图2.5所示。采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅度值,把时间上的连续信号变成时间上的离散信号。该时间间隔被称为采样周期(t),其倒数为采样频率(fs=1/t)。采样频率表征计算机每秒钟采集多少个声音样本。一般来讲,采样频率越高,即采样的间隔时间越短,则在单位时间内,计算机得到的声音样本数据就越多,对声音波形的表示也越精确,声音失真越小,但用于存储音频的数据量越大。

图2.5 模拟信号的采样

采样过程涉及采样频率和采样精度的选择。采样频率的高低是由奈奎斯特采样定理和声音信号本身的最高频率决定的。根据奈奎斯特(Nyquist)定理,只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音还原为原来的声音。奈奎斯特采样定理用公式表示为fs≥2fm,其中,fm为声音信号的最高频率。

例如,在数字电话系统中,由于电话语音的最高信号频率约为3.4kHz,为将人的声音变为数字信号,电话语音采样频率不低于6.8kHz,通常选为8kHz。要想获得CD音质的效果,则要保证采样频率为44.1kHz,也就是能够捕获频率高达22050Hz的信号。这是因为,人耳能够听见的最高声音频率为20kHz,为了避免高于20kHz的高频信号干扰采样,在进行采样之前,需要对输入的声音信号进行滤波。考虑到滤波器在20kHz处大约有10%的衰减,因此再将其提高10%成为22kHz。这个值再乘以2就得到44kHz的采样频率。但是,为了能够与电视信号同步,PAL电视的扫描为50Hz,NTSC电视的场扫描为60Hz,所以取50和60的整数倍,选用44100Hz作为激光唱盘声音的采样标准。

2.2.2 量化

采样只解决了音频波形信号在时间坐标(即横轴)上把一个波形切分成若干个等分的数字化问题,但是每个样本某一瞬间声波幅度的电压值的大小仍为连续值,因此,需要用某种数字化的方法来反映。这种将每个采样值在幅度上进行离散化处理的过程即量化。

量化可分为均匀量化和非均匀量化。均匀量化是将采样后的信号按整个声波的幅度等间隔分成有限个区段,把落入某个区段内的样值归为一类,并赋予相同的量化值(见图2.6)。以8bit或16bit的方式来划分纵轴为例,其纵轴将会被划分为28个和216个量化等级,用以记录其幅度大小。

图2.6 数字音频的获取

非均匀量化根据信号的不同区间来确定量化间隔。对信号值小的区间,其量化间隔也小;反之,量化间隔就大。这样就可以在满足精度要求的情况下用较少的位数来表示。还原声音数据时,采用相同的规则。非均匀量化的实现方法通常是将抽样值x通过一个变换y=f(x)后,再对y进行均匀量化,这个变换通常被称为压扩。根据函数f的不同,非均匀压扩可以分为µ律压扩算法和A律压扩算法。这两种算法主要用于数字电话通信中。北美地区和日本等采用µ律压扩算法,我国和欧洲各国均采用A律压扩算法。

µ律压扩算法按下式确定量化输入和输出的关系:

式中,x为输入信号幅度,规格化成–1≤x≤1;sgn(x)为x的极性;µ为确定压扩量的参数,它反映最大量化间隔和最小量化间隔之比,取100≤µ≤500。µ越大,压扩越厉害。具体计算时,用µ=255,把对数曲线变成8条折线,以简化计算过程。

A律压扩按下式确定量化输入和输出的关系:

式中,x为输入信号幅度,规格化成–1≤x≤1;sgn(x)为x的极性;A为确定压扩的参数。A律压扩的前一部分是线性的,其余部分与µ律压扩相同。具体计算时,A=87.56,为简化计算,同样把对数曲线部分变成折线。

A律压扩与µ律压扩相比,压扩的动态范围略小,小信号幅度时质量比µ律稍差。无论是A律还是µ律压扩算法,它们的特性在输入信号幅度小时都呈线性,在输入信号幅度大时呈对数压扩特性。

量化会引入失真,并且量化失真是一种不可逆失真,这就是通常所说的量化噪声。

模拟信号经过采样和量化以后,形成一系列的离散信号。这种数字信号可以以一定的方式进行编码,形成计算机内部运行的数据。经过编码后的声音信号就是数字音频信号。由此可以看出,数字音频是一个数据序列,它是由模拟声音经采样、量化和编码后得到的。音频压缩编码就是在它的基础上进行的。

对量化后的数字信号可采用某种形式进行编码存储,具体编码方法将在后面章节介绍。

2.2.3 数字音频的技术指标

衡量数字音频的主要指标包括采样频率、量化位数、通道(声道)个数。

(1)采样频率

采样频率是指一秒钟内采样的次数。采样频率越高,它可以恢复的音频信号分量越丰富,其声音的保真度越好。采样常用的频率分别为8kHz、11.025kHz、22.05kHz、44.1kHz等。

(2)量化位数

量化位数决定了模拟信号数字化以后的动态范围。一般的量化位数为8位、12位、16位。若以8位采样,则其波形的幅值可分为28=256等份,等效的动态范围为20×lg256=48(dB)。若以16位采样,则其波形的幅值可分为216=65536等份,等效的动态范围为20×lg65536=96(dB)。同样,量化位数越高,数字化后得到的音频信号就越可能接近原始信号,但所需要的存储空间也越大。

(3)通道(声道)个数

一次产生一组声波数据称为单声道;如果一次同时产生两组声波数据,则称为双声道或立体声。除了这两种声道类型外,还有四声道环绕(4.1声道)、Dolby AC-3音效(5.1声道)。

音频信号数字化之后,其数据传输率(每秒Bit数)与信号在计算机中的实时传输有直接关系,而其总数据量又与计算机的存储空间有直接关系。因此,数据传输率是计算机处理时要掌握的基本技术参数。未经压缩的数字音频数据传输率可按下式计算。

以下给出几种音质的音频数据的传输率。

(1)CD音质(20~20000Hz)

44.1kHz采样,16bit量化,双声道;数据传输率为44.1×16×2=1.411(Mbit/s)。

(2)AM

① Radio音质(50~7000kHz)

16kHz采样,14bit量化;数据传输率为16×14=224(kbit/s)。

② Telephone音质(300~3400Hz)

8kHz采样,8bit量化;数据传输率为8×8=64(kbit/s)。

【例2.1】假定语音信号的带宽是50~10000Hz,而音乐信号的带宽是15~20000Hz。采用奈奎斯特频率,并用12bit表示语音信号样值,用16bit表示音乐信号样值,计算这两种信号数字化以后的比特率及存储一段10分钟的立体声音乐所需要的存储器容量。

解:语音信号:取样帧率=2×10=20(kHz);比特率=20×12=(240 kbit/s)。

音乐信号:取样频率=2×20=40(kHz);比特率=40×l6×2=1280(kbit/s)(立体声)。

所需存储空间=1280×600/8=96(MB)。

2.2.4 数字音频的文件格式

音频信号数字化后,需要以各种形式在存储器上存储。常见的声音格式包括WAV、MIDI、MP3、RA等,而非常见的包括ASF、AU、AAC、WMA、MP4、AIFF、SND、XM、S3M等。可以将这些文件格式分为3类。

非压缩格式,包括WAV、AIFF、AU和PCM。

无损压缩格式,包括FLAC、APE(Monkey’s Audio)、WV、WavPack、TTA、ATRAC(Advanced Lossless)、m4a (ALAC)、MPEG-4 SLS、MPEG-4 ALS、MPEG-4 DST、Windows Media Audio Lossless(无损WMA)和SHN(Shorten)。

有损压缩格式,包括Opus、MP3、Vorbis、Musepack、AAC、ATRAC和Windows Media Audio Lossy(有损WMA)。

1. WAV文件格式简介

WAV是Microsoft Windows提供的音频格式。由于Windows本身的影响力,这个格式已经成为事实上的通用音频格式,它通常用来保存一些没有压缩的音频。目前所有的音频播放软件和编辑软件都支持这一格式,并将该格式作为默认文件保存格式之一。这些软件包括Sound Forge、Audition、WaveLab等。

WAV文件由3部分组成:文件头(标明是WAV文件、文件结构和数据的总字节数)、数字化参数(如采样频率、声道数、编码算法等)、实际波形数据。一般来说,声音质量与其WAV格式的文件大小成正比。

2. MP3文件格式简介

MP3是第一个实用的有损音频压缩编码技术。在MP3出现之前,一般的音频编码即使以有损方式进行压缩,能达到4:1的压缩比例已经非常不错了。但是,MP3可以实现12:1的压缩比例,这使MP3迅速流行起来。MP3之所以能够达到如此高的压缩比例,同时又能保持相当不错的音质,是因为采用了知觉音频编码技术,也就是利用了人耳的特性,削减音乐中人耳听不到的成分,同时尝试尽可能地维持原来的声音质量。

通常使用比特率来衡量MP3文件的压缩比例。通常比特率越高,压缩文件就越大,但音乐中获得保留的成分就越多,音质就越好。目前,社会上还流行着可变比特率方式编码的MP3,这种编码方式的特点是可以根据编码的内容动态地选择合适的比特率,因此编码的结果是在保证了音质的同时又照顾了文件的大小。

MP3是世界上第一个有损压缩的编码方案,可以说所有的播放软件都支持它。另外,几乎所有的音频编辑工具都支持打开和保存MP3文件。

3. MIDI文件格式简介

MIDI最初应用在电子乐器上用来记录乐手的弹奏,以便以后重播。在计算机里引入支持MIDI合成的声音卡之后,MIDI才正式成为一种音频格式。MIDI的内容除了乐谱之外,还记录每个音符的弹奏方法。

许多播放器都支持普通的MIDI文件,但要达到好的效果,就必须安装软波表,如WinGroove、Roland Virtual Sound Canvas和YAMAHA S-YXG Player。如果要对MIDI文件进行编辑,可以使用的比较出名的软件是Anvil Studio和Sonar。另外还有一些曲谱软件,如Sibelius等。