2.2 模数转换
如何将模拟信息转换成数字形式?我们看一些基本的例子,从图片和音乐开始,其中包含最重要的思想。
2.2.1 图像的数字化
将图像转换为数字形式可能是将模数过程可视化的最简单方法。假设我们拍了一张家猫的照片,如图2.1所示。
图2.1 2020年的一只家猫
模拟相机通过将化学涂层塑料薄膜的感光区域暴露在被拍摄物体发出的光线下来创建图像。不同的区域接收不同数量不同颜色的光,这会影响胶片中的染料。胶片通过一系列复杂的化学过程显影并印在纸上,不同数量的有色染料显示出不同的颜色。
在数码相机中,镜头将图像聚焦到红色、绿色和蓝色滤光片后面由微小光敏探测器组成的矩形阵列上。每个探测器存储的电荷量与照射到它的光的量成正比。这些电荷被转换成数值,结果数字序列可以表示光的强度,从而构成了图像的数字表示。如果探测器数量更多,电荷测量将更精确,那么数字化图像将更准确地捕捉原始图像。
传感器阵列的每个元素都是一个三合一检测器,用于测量红、绿和蓝光的量;对于图片元素,每组称为一个像素。如果是4000×3000像素的话,就是1200万像素,这对于现在的数码相机来说是非常小的。一个像素的颜色通常由三个值来表示,这三个值分别记录了它所包含的红、绿和蓝的强度,所以一个1200万像素的图像总共有3600万个光强度值。屏幕上显示的图像是由微小的红、绿、蓝三联灯组成的阵列,其亮度级别由相应的像素决定。如果你用放大镜看手机、电脑或电视的屏幕,可以看到单个的彩色斑点,有点像图2.2。如果离得够近,就能在体育场屏幕和电子广告牌上看到同样的画面。
图2.2 RGB像素
2.2.2 声音的数字化
模数转换的第二个例子是声音,尤其是音乐。数字音乐是很好的例子,因为这是数字信息属性开始产生重大社会、经济和法律影响的首个领域之一。与黑胶唱片或磁带不同,数字音乐可以在任何家用计算机上免费地进行任意次数的复制,并且可以通过互联网将完美的副本无误地传送到世界任何地方,这同样是免费的。唱片业将其视为严重的威胁,并开始采取法律和政治行动,试图压制拷贝行为。这个战争还没有结束,法庭和政治舞台上的小冲突仍在继续,但Spotify等流媒体音乐服务的出现缓解了这个问题。我们将在第9章继续讨论这个问题。
那么声音是什么呢?声源通过振动或其他快速运动产生气压波动,我们的耳朵将这个气压变化转化为一种神经活动,从而大脑解释为声音。在19世纪70年代,托马斯·爱迪生(Thomas Edison)制造了一种他称之为留声机的设备,它将波动转换成蜡制圆柱体中的凹槽图案,这些图案可以在以后用来重现气压波动。将声音转换为凹槽图案就是录音;从图案转换为气压波动就是回放。爱迪生的发明很快得到改进,到20世纪40年代已经发展成LP唱片(见图2.3)。这种唱片至今仍在使用,不过使用者主要是一些复古音乐爱好者。
LP唱片是带有长螺旋槽的黑胶唱片,它可以编码随时间变化的声压。麦克风用于测量生成声音时声压的变化,这些测量值用于制造螺旋槽上的图案。播放LP唱片时,一根细针沿着凹槽的图案移动,它的运动转化为波动的电流,放大后用于驱动扬声器或耳机,而这些设备通过振动表面来产生声音。
图2.3 LP唱片(又称密纹唱片)
通过绘制气压随时间的变化,可以很容易地将声音可视化,如图2.4所示。我们可以用许多物理方法来表示压力:电子电路中的电压或电流,光的亮度,或者像爱迪生的原始留声机那样的纯机械系统。声压波的高度为声强或响度,水平维数为时间;每秒的波的数量就是音调或频率。
图2.4 声音的波形
假设我们按一定的间隔测量麦克风处的气压,即曲线的高度,结果将如图2.5中的竖线所示。
图2.5 对声音的波形取样
这样的测量结果提供了一个数值序列来逼近该曲线。如果我们测量得越频繁或者越精确,则得到的逼近曲线就越准确。由此产生的数字序列是波形的数字表示,它们可以被存储、复制、操纵和传输到其他地方。我们还可以用一种设备进行回放,这种设备可以将数值转换成匹配的电压或电流模式,以驱动扬声器或耳机,从而将其还原为声音。从波形到数字的转换是模数转换,转换设备称为A/D转换器;另一个方向当然是数模转换,或称为D/A。转换从来都不是完美的,每个方向都会丢失一些东西,对于大多数人来说,这种损失是难以察觉的,而发烧友则声称数字声音的质量不如LP唱片。
音频光盘或CD出现在1982年左右,它是第一个消费数字声音的例子。与LP唱片的模拟槽不同,CD在磁盘一侧的长螺旋轨道上记录数值。沿着轨道的每一点的表面要么是光滑的,要么有一个小凹点。这些凹点或光滑点被用来对波的数值进行编码;每个点是一个比特,而一个比特序列表示二进制编码中的数值,这些我们将在下一节中讨论。当圆盘旋转时,一束激光照射在轨道上,光电传感器检测反射的光的变化。如果光线不够亮,表示这里是一个凹点;如果有很多反射光,就不是凹点。CD的标准编码每秒进行44100个采样;每个样本是两个幅度值(对应于立体声的左声道和右声道),其测量精度为1/65536(即1/216)。凹点非常小,只有用显微镜才能看到。DVD也是类似的,但是所具有的更小的凹点和更短波长的激光允许它们能存储近5GB数据,相比之下,一张CD存储的数据约700MB。
音频CD几乎把LP唱片赶出了市场,因为它在很多方面都要好得多。它不会磨损,因为它没有和激光进行物理接触,也不会受到灰尘或划痕的干扰。它不脆弱,而且绝对紧凑。LP唱片偶尔会稍微复兴,而流行音乐的CD则严重衰退,因为从互联网上下载音乐更容易,也更便宜。CD的第二大用途是存储和分发软件和数据,但这一功能已被DVD取代,而DVD在很大程度上又被互联网存储和下载所取代。对许多读者来说,音频CD似乎和黑胶唱片一样古老。不过,我很高兴我的音乐收藏全部都放在了CD上(尽管它们也以MP3格式存储在可移动硬盘上)。我能够完全拥有它们,而收藏在云中的音乐则不是这样。制造出来的CD的寿命会比我的寿命长,但复制的CD可能不会,因为它们依赖于一种光敏染料的化学变化,这种染料的特性可能会随着时间的推移而发生变化。
因为声音和图像包含了许多人类无法感知的细节,所以它们可以被压缩。对于音乐来说,这是通过MP3和AAC高级音频编码(Advanced Audio Coding, AAC)等压缩技术实现的,这些技术可以将音乐的大小减小为原来的1/10,几乎不会出现可察觉的品质降低。对于图像而言,最常见的压缩技术被称为JPEG,这是以联合图像专家组(Joint Photographic Experts Group)的名字命名的,该组织定义了JPEG,它能将图像缩小为原来的1/10或更小。压缩就是可以对数字信息方便进行处理的一个例子,但对模拟信息的处理如果不是不可能的话,也是极其困难的。我们将在第8章中进一步讨论压缩。
2.2.3 电影的数字化
电影又是怎样的呢?19世纪70年代,英国摄影师埃德沃德·迈布里奇(Eadweard Muybridge)展示了如何通过快速连续地展示一系列静止图像来创造动画的视觉感受。如今,电影是以每秒24帧的速度显示图像,而电视则以每秒25~30帧的速度显示图像,这已经快到足以让人眼把这个序列看作连续的运动。电子游戏通常是每秒60帧。老电影每秒只有十几帧,所以有明显的闪烁(flicker)。这个术语是从表示电影的单词“flicks”中演变而来的,其今天在网飞公司英文名称“Netflix”中仍然存在。电影的数字表示法结合并同步了声音和图像组件。压缩可用于减少所需的空间量,如在MPEG(移动图像专家组)等标准电影表示方法中所做的一样。实际上,视频比音频的呈现更复杂,部分原因是它本质上更困难,但也因为它大多是基于广播电视的标准,而在广播电视的大部分发展历史中,信号都是以模拟形式进行处理的。模拟电视在世界上的大部分地区正在逐步被淘汰。在美国,电视广播在2009年转向了数字信号,其他国家正处于这一进程的不同阶段。
电影和电视节目是画面和声音的结合,其商业节目的制作成本比音乐节目高得多。然而,制作完美的数字拷贝并免费发送到世界各地也很容易。因此,其版权的风险比音乐要高得多,娱乐行业仍在继续与盗版行为做斗争。
2.2.4 文本的数字化
有些类型的信息很容易以数字形式表示,因为除了对表示的内容达成一致之外,不需要进行任何转换。想想普通的文本,比如书中的字母、数字和标点符号。我们可以给每个不同的字母分配一个唯一的数字——A是1,B是2,以此类推—这将是一个很好的数字表示方式。事实上,这正是实际所采用的方式。在实际的标准表示中,A~Z是65~90,a~z是97~122,数字0~9是48~57,而其他字符,如标点符号则采用其他值表示。这种表示称为ASCII,即美国信息交换标准代码(American Standard Code for Information Interchange),是于1963年发布的标准。
图2.6显示了部分ASCII,我省略了前面四行,其中包含制表符、退格符和其他非打印字符。
图2.6 ASCII字符及其数值
不同的地理或语言区域有不同的字符集标准,但世界或多或少都集中在一个称为Unicode的标准上,Unicode为每种语言中的每个字符指定了一个唯一的数值。这是一个很大的集合,因为人类在他们创造的书写系统方面一直具有无穷无尽的创造力,但很少系统化。Unicode有超过140000个字符,而且这个数字还在稳步上升。可以想象,像中文这样的亚洲字符集占Unicode的很大一部分,但绝不是全部。Unicode网站unicode.org有所有字符的图表,它很迷人,值得去看看。
最低要求是:数字表示可以表示所有这些类型的信息,甚至任何可以转换为数值的信息。因为它只是数字,所以它可以被数字计算机处理,正如我们将在第9章中看到的,它可以通过通用数字网络——Internet,复制到任何其他计算机上。