1.1 语音信号处理的发展
语音信号处理的研究工作最早可以追溯到1876年贝尔发明的电话,它首次完成了用声电—电声转换来实现远距离传输语音的技术。1939年,Dudley研制成功了第一个声码器,从此奠定了语音产生模型的基础,这一工作在语音信号处理领域具有划时代的意义。1947年,贝尔实验室发明了语谱图仪,将语音信号的时变频谱用图形表示出来,为语音信号的分析提供了一个有力的工具。1948年,美国Haskins实验室研制成功“语图回放机”,它把手工绘制在薄膜片上的语谱图自动转换为语音,可以进行语音合成。共振峰合成方法就是源于这一思想。
对语音识别而言,它的研究相对较晚,起源于20世纪50年代。语音识别技术的根本目的是研究出一种具有听觉功能的机器,能接收人类的语音,理解人的意图。由于语音识别本身所固有的难度,人们提出了各种限制条件下的研究任务,并由此产生了不同的研究领域。这些领域包括:按说话人的限制,可分为特定说话人语音识别和非特定说话人语音识别;按词汇量的限制,可划分为小词汇量、中词汇量和大词汇量的识别;按说话方式的限制,可分为孤立词识别和连续语音识别等。最简单的研究领域是特定说话人小词汇量孤立词的识别,而最难的则是非特定说话人大词汇量连续语音的识别。
1952年,贝尔实验室的Davis等研制了特定说话人孤立数字识别系统。该系统利用每个数字元音部分的频谱特征进行识别。1956年,RCA实验室的Olson等也独立地研制出10个单音节词的识别系统,系统采用从带通滤波器组获得的频谱参数作为语音的特征。1959年,Fry和Denes等尝试构建音素识别器来识别4个元音和9个辅音,采用频谱分析和模式匹配来进行识别决策,其突出贡献在于,使用了英语音素序列中的统计信息来改进词中音素的精度。1959年,MIT林肯实验室的Forgie等,采用声道的时变估计技术对10个元音进行识别。
20世纪60年代初期,日本的很多研究者开发了相关的特殊硬件来进行语音识别,如东京无线电研究实验室Suzuki等研制的通过硬件来进行元音识别的系统。在此期间开展的很多研究工作对后来近二十年的语音识别研究产生了很大的影响。RCA实验室的Martin等在20世纪60年代末开始研究语音信号时间尺度不统一的解决办法,开发了一系列的时间归正方法,明显地改善了识别性能。与此同时,苏联的Vintsyuk提出了采用动态规划方法来解决两个语音的时间对准问题。尽管这是动态时间弯折算法(dynamic time warping, DTW)的基础,也是连接词识别算法的初级版,但Vintsyuk的工作并不为学术界的广大研究者所知,直到20世纪80年代大家才知道Vintsyuk的工作,而这时DTW方法已广为人知。
值得一提的是20世纪60年代中期,斯坦福大学的Reddy开始尝试用动态跟踪音素的方法来进行连续语音的识别。后来Reddy加入卡内基梅隆大学,多年来在连续语音识别上开展了卓有成效的工作,直至现在仍然在此方面居于领先地位。
20世纪70年代之前,语音识别的研究特点是以孤立词的识别为主。20世纪70年代,语音识别研究在多方面取得了诸多的成就,在孤立词识别方面,日本学者Sakoe给出了使用动态规划方法进行语音识别的途径——DTW算法,它是把时间归正和距离测度计算结合起来的一种非线性归正技术。这是语音识别中一种非常成功的匹配算法,当时在小词汇量的研究中获得了成功,从而掀起了语音识别的研究热潮。Itakura利用语音编码中广泛使用的线性预测编码(linear predictive coding, LPC)技术,通过定义基于LPC频谱参数的合适的距离测度,成功地将其扩展应用到语音识别中。以IBM为首的一些研究单位还着手开展了连续语音识别的研究,AT&T的贝尔实验室也开展了一系列非特定说话人语音识别方面的研究工作。
应该指出的是,20世纪70年代,人工智能技术开始被引入到语音识别中。美国国防部的高级研究规划局(Advanced Research Projects Agency, ARPA)组织了有卡内基梅隆大学等五个单位参加的一项大规模语音识别和理解的研究计划,当时专家们认为:要使语音识别研究获得突破性进展,必须让计算机像人那样具有理解语言的智能,而不必过多地在孤立词识别上下功夫。在这个历时五年的庞大的研究计划中,最终在语言理解、语言的统计模型等方面积累了经验,其中卡内基梅隆大学完成的Hearsay-II和Harpy两个系统效果最好。在这两个系统中,引用了“黑板模型”来完成底层和顶层之间不同层次的信息交换和规则调用,成为以后其他专家系统研究工作中的一种规范。但从整体上看,这个计划并没有取得突破性的进展。
20世纪70年代末80年代初,Linda、Buzo、Gray等提出了矢量量化(vector quantization)码本生成的方法,并将矢量量化技术成功地应用到语音编码中,从此矢量量化技术不仅在语音识别、语音编码和说话人识别等方面发挥了重要的作用,而且很快推广应用到其他领域。这一时代,语音识别的研究重点之一是连接词识别,典型的工作是进行数字串的识别。研究者提出了各种连接词语音识别算法,大多数工作是基于对独立的词模板进行拼接来进行匹配的方法,如两级动态规划识别算法、分层构筑(level building)、帧同步(frame synchronous)分层构筑方法等。这些方法都有各自的特点,广泛用于连接词识别当中。
20世纪80年代开始,语音识别研究的一个重要进展,就是识别算法从模式匹配技术转向基于统计模型的技术,更多地追求从整体统计的角度来建立最佳的语音识别系统。隐马尔可夫模型(hidden markov model, HMM)技术就是其中的一个典型;尽管开始的时候仅有较少的单位采用这种模型,但由于该模型能很好地描述语音信号的时变性和平稳性,具有把从声学—语言学到句法等统计知识全部集成在一个统一框架中的优点,因此从20世纪80年代起,它被广泛地应用到语音识别研究中。直到目前为止,HMM方法仍然是语音识别研究中的主流方法。HMM的研究使大词汇量连续语音识别系统的开发成为可能。20世纪80年代末,美国卡内基梅隆大学用VQ/HMM实现了997词的非特定人连续语音识别系统SPHINX,这是世界上第一个高性能的非特定人、大词汇量、连续语音识别系统。此外,BBN的BYBLOS系统,林肯实验室的识别系统等也都具有很好的性能。这些研究工作开创了语音识别的新时代。
从20世纪80年代后期和90年代初开始,人工神经网络(artificial neural network, ANN)的研究异常活跃,并且被应用到语音识别的研究中。进入20世纪90年代后,相应的研究工作在模型设计的细化、参数提取和优化,以及系统的自适应技术等方面取得了一些关键性的进展,使语音识别技术进一步成熟,并且出现一些很好的产品。许多发达国家,如美国、日本、韩国,以及IBM、Microsoft、Apple、AT&T、NTT等著名公司都为语音识别系统的实用化开发研究投以巨资。
进入21世纪,基于深度学习理论的语音识别得到了全面突破,识别性能显著提高。2006年,加拿大多伦多大学的Hinton等提出了一种深度神经网络(deep neural network, DNN)模型——深度置信网络模型(deep belief network, DBN)。它由一组受限玻尔兹曼机(restricted boltzmann machine, RBM)堆叠而成,其核心部分是贪婪的逐层无监督学习算法,其时间复杂度与网络的大小及深度呈线性关系。通过先使用DBN来对包含多个隐层的多层感知机进行预训练,然后通过反向传播算法来进行微调(fine-tuning),能够提供一种解决深层网络优化过程中过拟合和梯度消失问题的有效途径。
通常对DNN等深度模型的训练需要具有强大计算能力的设备,而近年来以通用图形处理器(graphics processing unit, GPU)为代表的硬件技术的迅猛发展,有力支撑了深度学习理论与方法的高效实现。
最早将深度神经网络方法成功应用到语音识别中的研究机构是多伦多大学与微软研究院。他们使用DNN代替传统的GMM-HMM系统中的高斯混合模型,以音素状态为建模单位,提出了DNN-HMM的识别方法,显著降低了误识率,从而引发了基于深度神经网络的语音识别热潮。此后,随着深度学习技术的发展,卷积神经网络(convolutional neural networks, CNN)和循环神经网络(recurrent neural networks, RNN)等网络结构成功地应用到语音识别任务中。它们与传统的DNN方法相比展现出了各自的优势,受到越来越广泛的关注。目前,能够彻底摆脱HMM框架的端到端语音识别技术正日益成为语音识别研究的焦点,无论是学术机构,还是工业界都投入大量的人力和财力,致力于此方面的研究。
近年来,语音识别研究工作更趋于解决在真实环境应用时所面临的实际问题,这可从作为国际语音识别研究热点风向标的NIST(national institute of standards and technology)评测情况反映出来:其评测的语音类型已从最初的朗读语音到广播语音,再到后来的交谈式电话语音(conversational telephone speech),发展到目前真实场景的会议语音。相对于广播语音,交谈式电话语音增加了相应的难度,具体表现在:发音多为自发的口语语音,存在着大量的不流利(如犹豫词、重复、更正等)现象,同时,语音内容和词汇的随机性明显增加。此外,针对实际的电话线路,噪声的影响较大。2002年,美国国防部先进研究项目局(Defense Advanced Research Projects Agency, DARPA)提出了一个“EARS-Effective, Affordable and Reusable Speech-to-text(高效低耗可重用语音文字转化)”的项目,把NIST的语音评测推到了又一个新的时代——丰富的语音文本(rich transcription, RT)转写,其要求不仅将语音所对应的文字显示出来,而且要将语音中的其他丰富信息,如文字之间的标点符号、句词之间的停顿、说话人等也能同时识别出来。从2004年的评测结果看,对广播语音和电话语音的词错误率(word error rates, WERs)已分别下降到10%和15%以下。从2005年起,NIST评测的语音类型转变为英语会议语音,包括磋商式会议(conference meeting)和演讲式会议(lecture meeting),其特点是研究真实会议场景中多人多方对话时的口语语音识别。相对于交谈式电话语音,会议语音又增加了相应的难度,表现在:必须解决会议场景中处于不同位置上说话人语音数据的有效采集问题,以及在多人交谈相互语音有少部分交叠时各自语音的分离问题。为此,NIST评测中开始提供采用远离用户,且处于空间上多个位置、摆放形式多样的多麦克风或麦克风阵列采集来的现场数据作为评测的语料。从2007年进行的评测结果看,会议语音的词错误率在40%~50%之间。2009年的评测内容基本与2007年相同,所不同的是仅进行磋商式会议语音的评测,同时为各个测试任务定义了视频和音视频的输入条件。
目前无论从NIST评测的内容看,还是欧美发达国家的关注点看,研究真实场景中多人多方对话时的口语语音识别是当前语音识别的研究热点之一。从处理口语语音与朗读语音的方法看,其不同之处在于声学模型的自适应(acoustic adaptation)和发音词典自适应(lexicon adaptation)方面。声学模型自适应常采用基于最大似然线性回归(maximum likelihood linear regression, MLLR)和最大后验概率(maximum a posteriori, MAP)的方法。这两种方法是当前最为有效的自适应方法,许多新的自适应方法都是从二者中派生出来的。发音词典自适应常采用发音变化建模(pronunciation variation modeling)相关技术,主要研究由说话方式、语速、口音等带来的影响。
口语语音识别的另一个挑战是缺乏建立在大量口语文本语料之上良好的语言模型。朗读语音识别器所使用的统计语言模型,实际上都要依赖于大规模的训练语料,但是同样量级的口语语言的文字脚本还难以实现。口语语音中的不连贯进一步增加了语言模型估计的难度。目前研究者正致力于多种口语语言模型的建模方法研究。
当前语音识别研究的另一个趋势是,不再只单纯地关注大词表连续语音识别的精度,而是从实际的应用角度出发,积极探索机器对人类的语音进行感知与理解的途径和方法。而从整个计算领域的发展趋势看,近年的研究热点之一是普适计算,计算的模式与物理位置也正从传统的桌面方式逐步向以嵌入式处理为特征的无处不在的方式发展,比较典型的是移动计算方式。因此对语音处理而言,探讨在典型的移动方式下的语音感知与理解机制,实现能根据用户的语音内容及所处的音频场景,并借助其他辅助信息(如地理位置、时间等)自主地感知和理解用户的意图及情感倾向,从而提供更智能化、人性化的人机交互手段,具有重要的理论意义与现实意义。同时,随着网络技术和移动计算技术的迅速发展,出现了网络环境下的语音识别技术、嵌入式和计算资源有限时的语音识别技术、语种识别技术、基于语音的情感处理技术等一些新的研究方向。
在国内,20世纪50年代末就有人尝试用电子管电路进行元音识别,而到了70年代才由中科院声学所开始了计算机语音识别的研究。在此之后,有关专家也开始撰文介绍这方面的工作。从20世纪80年代开始,很多单位陆续参加到这一行列中来,它们纷纷采用不同的方法,开展了从最初的特定说话人中、小词汇量孤立词识别,到非特定说话人大词汇量连续语音识别的研究工作。20世纪80年代末,以汉语全音节识别作为主攻方向的研究已经取得了相当大的进展,一些汉语语音输入系统已向实用化迈进。四达技术开发中心、星河公司等相继推出了相应的实际产品。清华大学、中科院声学所在无限词汇的汉语听写机的研制上获得成功。20世纪90年代初,四达技术开发中心又与哈尔滨工业大学合作推出了具有自然语言理解能力的新产品。在国家“863计划”支持下,清华大学和中科院自动化所等单位在汉语听写机原理样机的研制方面开展了卓有成效的工作。北京大学在说话人识别方面也做了大量的工作。
近年来,随着改革开放的不断进行,我国的国际地位与日俱增,汉语语音识别越来越受到重视,国外很多著名的公司都在国内设立了研发机构,并且都将汉语语音识别作为主攻方向之一。IBM公司于1997年推出了汉语连续语音识别系统ViaVoice,输入速度平均每分钟可达150字,平均最高识别率达到95%,并具有“自我”学习的功能。2000年发布的ViaVoice千禧版,用户可以通过语音导航到计算机桌面及浏览网页。1998年,微软(Microsoft)投资8000万美元在中国筹建微软中国研究院(2000年更名为微软亚洲研究院),开发的重点方向之一就是语音识别。1998年,Intel提出了基于Intel架构发展语音技术的构想,向软件开发厂商提供包括信号处理库、识别库、图像处理库在内的高性能语音函数库支持。1999年,Intel和L&H公司合作,推出语音识别软件开发包Spark3.0,其中包括Spark语音识别引擎和软件开发工具箱。微软也推出了基于.net的语音识别引擎。2011年苹果公司在其iphone手机上率先推出了智能语音助理siri,掀起了语音应用的热潮。国内一些著名企业也投入大量资金开始资助语音识别方面的研究,如百度、科大讯飞、阿里巴巴等。
尽管语音识别技术研究已经取得了很大的成绩,但到目前为止离广泛的应用尚存在距离。很多因素影响着语音识别系统的性能,如实际复杂环境中的背景噪声、传输通道的频率特性、说话人生理或心理情况的变化,以及应用领域的变化等都会导致语音识别系统性能的下降,甚至不能工作。研究语音识别系统顽健性(robustness)问题受到了研究者的广泛重视,国内外很多单位都开展了大量的工作。但到目前为止,所做的工作大都是针对某一种或两种影响因素进行补偿的研究,综合考虑各种影响因素补偿方法的研究还相对偏少。
语音识别通常是指能识别出相应的语音内容,除此之外,它还有一种特殊的形式——说话人识别。说话人识别不必识别出语音信号的具体内容,而只要鉴别出该语音是哪个说话人发出的即可。从实现的技术手段上看,说话人识别和语音识别一样,都是通过提取语音信号的特征,并建立相应的参考模板来进行分类判断。说话人识别问题,最初是在第二次世界大战期间,美国国防部向贝尔实验室提出的课题。目的是根据窃听到的电话语音来判断说话人是哪一位德军高级将领,这对分析当时的德军战略部署具有重要的意义。该项目持续进行了三年,但并未达到预期的目的。
说话人识别研究的早期工作,主要集中在人耳听辨实验和探讨听音识别的可能性方面。随着语音识别研究的不断深入,说话人识别研究也获得了突飞猛进的发展。语音识别中很多成功的技术,如矢量量化(vector quantization, VQ)、隐马尔科夫模型等都被应用到说话人识别中。
20世纪90年代,Rose等提出了单状态的HMM,即后来的高斯混合模型(gaussian mixture model, GMM),它是一个顽健的参数化模型。Matsui等比较了基于连续HMM的说话人识别方法,发现识别率是状态和混合数的函数。同时,识别率与总的混合数有很强的关联性,但与状态数无关。这意味着不同状态间的转移信息对文本无关的说话人系统而言是没有作用的,因此,高斯混合模型GMM得到了与多状态HMM几乎相同的识别性能。正是上述工作,使得GMM建模方法在说话人识别研究中得到了越来越多的重视。特别是Reynolds等对高斯混合模型GMM以及通用背景模型(universal background model, UBM)的详尽介绍后,由于GMM-UBM具有简单有效,以及具有较好的顽健性等特点,迅速成为当今与文本无关的说话人识别中的主流技术,并由此将说话人识别技术带入了一个新的阶段。20世纪90年代另一项重要的研究工作是,针对说话人确认中,说话人自身的似然度的得分变异的规整技术,出现了很多关于得分规整的算法,比较典型的如基于似然比(likelihood ratio)和后验概率(a posteriori probability)的技术。为了降低计算规整算法的计算复杂性,相继出现了群组说话人(cohort speakers)等方法。与此同时,说话人识别技术与其他的语音研究方向的结合更加密切,比如针对对话/会议中包含多人的说话人分割与聚类技术,音频元数据(metadata)的检索研究等也得到了很多研究人员的关注。
2000年以来,各种新的说话人识别技术层出不穷,如支持向量机和GMM的结合,出现了一系列说话人得分规整的新方法,包括Z-norm、H-norm、T-norm、Ht-norm、C-norm、D-norm和AT-norm。此外,针对信道失配问题,研究者们提出说话人模型合成方法。近年来,又提出了联合因子分析(Joint Factor Analysis),通过将说话人所在的空间划分为说话人空间和信道空间,进而能提取出与说话人相关的特征,并去掉与信道相关的特征。在此基础上,为了压缩说话人特征的规模,研究者又采用一个总变化空间来代替上述两个空间,从而提出了基于i-vector特征的方法。由于i-vector方法中只使用一个总变化空间来提取特征,因此所提取出的特征中可能同时包含说话人和信道的影响,需要对其进行进一步的信道补偿。通常是采用线性判别分析(linear discriminant analysis, LDA)来去除信道的影响。
目前,说话人识别的重点已经从实验系统转移到研究针对实际应用面临的问题。NIST从1996年起开始举办每年一度的说话人识别评测(speaker recognition evaluations, SRE)。从其评测内容、评测方式的演变看,正逐步贴近实际的应用情况。例如,麦克风的种类越来越多,语种从单纯的英语,扩展到十几种语言,场景也从简单的单个说话人方式扩展到多个说话人方式。应该指出的是,近些年在NIST举办的说话人测试大赛中,识别率最高的单系统是基于i-vector的系统。除了NIST说话人评测之外,其他机构也组织过类似的评测,比如荷兰NFI-TNO(Netherlands forensic institute-TNO human factors)组织的说话人评测,主要针对司法应用方面的说话人识别。中文口语处理会议也在2006年组织了不同任务单元的说话人评测。虽然以上两个评测的规模和影响力不如NIST评测,但是都针对具体的应用语音环境,通过会议交流的方式,开放式的进行算法的优势对比和分析,不同程度地促进了技术的提高和进步。
目前,国外已经有了一些成熟的产品。如AT&T应用说话人识别技术研制出了智慧卡,已应用于自动提款机。欧洲电信联盟在电信与金融结合领域应用说话人识别技术,于1998年完成了CAVE计划,在电信网上进行说话人识别。说话人识别技术应用最为成功的例子是在伊拉克战争期间,萨达姆在电视上发表讲话后,美国FBI宣称讲话者不是萨达姆本人,而德国的科学家应用说话人识别技术证实讲话的人确实是萨达姆。从后来的情况看,德国科学家的判断是正确的。随着Internet的发展,网络环境下的说话人识别技术日益受到了重视,已成为当今的一个研究热点。
就语音合成技术而言,最早的语音合成器是1835年由W.von Kempelen发明,经威斯顿改进的机械式的会讲话的机器。它完全模拟人的发音生理过程,用风箱模拟来自肺部的空气动力,气流通过特别设计的哨时会产生语音中的辅音;气流通过形状可以变化的模拟口腔的软管时会产生元音。风箱、哨和软管三部分机械配合起来就可以产生一些音节和词。这是一个相当完善的机械式语音合成器。最早的电子式语音合成器是前面提到的1939年Dudley发明的声码器,它不是机械地模仿人发音的生理过程,而是通过电子线路来实现基于语音产生的源/滤波器理论;其中声源包括产生清音的噪声源和产生浊音的周期脉冲声源,它们分别用噪声发生器和张弛振荡器来实现,而声道的滤波作用是通过电子通道滤波器来实现的,滤波器的中心频率是用键盘上的十个琴键来控制。
现代的语音合成器都是利用计算机来实现的。从20世纪70年代末开始,出现了文-语转换(text to speech, TTS)系统的研究,其特点是用最基本的语音单元,如音素、双音素、半音节或音节作为合成单元,建立语音库,通过合成单元拼接而达到无限词汇的合成。为了保证合成声音具有良好的音质,在这种系统中除语音库外,还有一个相当庞大的规则库,以实现对合成语音的音段特征和超音段特征的控制。20世纪80年代,由D.Klatt设计的串/并联混合型共振峰合成器是20世纪最有代表性的工作。它可以设置和控制多达八个共振峰,可模拟发音过程中的声道共振,而且还设有单独的滤波器来模拟鼻腔和气管的共振。其中,元音和浊辅音的产生用串联通道来实现,清辅音的产生用并联通道来实现。此外,这种合成器还可以对声源做各种选择和调整,以模拟不同的嗓音。它共可以产生七种不同音色的语音,包括模拟不同年龄、性别和个性的说话人的语音。瑞典皇家理工学院Fant实验室在多语种文-语转换系统研究方面也做出了突出的成绩,完成了英语、法语、瑞典语、西班牙语和芬兰语的文-语转换系统。
20世纪90年代末,日本的研究者提出了一种多样本、不等长语音拼接合成技术PSOLA。它在语音库中存放了大量的真人语音样本,通过选择合适的拼接语音片段来实现高质量的合成语音。在这项技术中,语音合成问题被简化为如何建立一个在语音学上充分覆盖的语音库,如何从语音库中选择合适的语音片段来拼接,以及如何对语音片段之间的拼接部分做适当的调整。
20世纪90年代中期,随着语音识别中统计建模方法的日益成熟,研究者提出了可训练的语音合成方法,其基本思想是基于统计建模和机器学习的方法,根据一定的语音数据进行训练并快速构建合成系统。随着声学合成性能的提高,在此基础上又发展出统计参数语音合成方法,其中以HMM的建模与参数生成合成方法为代表。
基于HMM的参数语音合成方法分为训练与合成两个阶段。在训练阶段,主要从训练语音数据中提取基频和多维频谱参数,然后训练一组上下文相关音素对应的HMM模型,保证相对该模型的训练数据似然函数值最大。一般使用多空间概率分布(multi-space probability distribution, MSD)来进行基频参数的建模,通过训练决策树来进行上下文扩展模型的聚类,以提高数据稀疏情况下训练得到的模型参数的顽健性,并防止过训练;接着使用训练得到的上下文相关HMM进行状态的切分,并且训练状态的时长概率模型用于合成时的时长预测。在合成阶段,首先依据文本分析的结果和聚类决策树,找出待合成语句所对应的HMM模型。然后基于最大似然准则,并且使用动态参数约束来生成每帧对应的最优静态特征向量。最后将生成的声学参数送入参数合成器合成语音。基于HMM的参数语音合成方法可以在不需要人工干预的情况下,自动快速地构建合成系统,而且对不同发音人、不同发音风格、不同语种的依赖性非常小。
近年来,随着深度神经网络(DNN)在语音识别中的成功应用,基于DNN的统计声学建模方法也成为语音合成领域的研究热点。与基于HMM模型和决策树聚类的高斯状态分布的参数语音合成方法相比,基于DNN的方法能对高维声学特征中各维间的相关性,以及输入文本特征与输出声学特征间的复杂映射关系进行更精细的建模,因而能有效改进合成语音的音质。
目前,有限词汇的语音合成器已经在自动报时、报警、报站、电话查询服务、智能玩具等方面得到了广泛的应用。从研究进展上看,很多语音合成系统都具有较高的可懂度,但在自然度研究方面还有很大的研究空间。提高语音合成的自然度是当今研究的热点。
我国的语音合成研究是从20世纪80年代开始的,中科院声学所、中科院自动化所、社科院语言所较早地开展了这方面的工作。早期的工作主要是参数合成,尤其是共振峰合成及线性预测合成。20世纪90年代初开始,真实语音的波形拼接技术最早由清华大学应用到汉语合成中来,合成的语音清晰度明显好于参数合成。之后声学所将可以调节韵律参数的波形拼接合成技术PSOLA引入汉语合成,并提出了一套韵律控制方法,使合成语音的质量有突破性的提高。当前的汉语语音合成系统中,很多单位也在开展基于HMM参数语音合成方法的研究,如清华大学、中国科技大学、微软亚洲研究院,IBM中国研究中心,摩托罗拉中国研究中心等,尤其是中国科技大学及科大讯飞公司近年来在若干次国际语音评测中取得了突出的成绩,其研发的语音合成系统已广为使用。
就语音编码技术而言,它的研究也是始于1939年Dudley发明的声码器,但是直到20世纪70年代中期,除了脉冲编码调制(pulse coding modulation, PCM)和自适应差分脉冲编码调制(ADPCM)取得较好的进展之外,中低比特率语音编码一直没有大的突破。自20世纪70年代起,国外就开始研究计算机网络上的语音通信,当时主要是基于ARPANET网络平台进行的研究和实验。1974年,首次分组语音实验是在美国西海岸南加州大学的信息科学研究所和东海岸的林肯实验室之间进行,语音编码为9.6kb/s的连续可变斜率增量调制。1974年12月,线性预测编码(LPC)声码器首次用于分组语音通信实验,数码率为3.5kb/s。1975年1月,首次在美国实现了使用LPC声码器的分组语音电话会议。1977年,Internet工程任务组(Internet Engineering Task Force, IETF)颁发了关于分组话音通信协议的讨论文件RFC741。因为20世纪70年代后期已推出带宽可达Mb/s量级的价格较为低廉的以太网,所以20世纪80年代的研究主要集中在局域网上的语音通信。最早的实验是由英国剑桥大学于1982年在10Mb/s的剑桥环形网上进行的。其后,意大利、美国、英国等许多国家的研究者在总线型局域网、令牌环网、3Com以太网上进行实验,深入研究了分组时延的原因、分组语音通信协议、链路利用率和语音分组同步等问题,并试制了电话网和局域网的接口模块。1980年美国政府公布了一种2.4kb/s的线性预测编码标准算法LPC-10,这使得在普通电话带宽信道中传输数字电话成为可能。1988年美国又公布了一个4.8kb/s的码激励线性预测编码(CELP)语音编码标准算法,欧洲推出了一个16kb/s的规则脉冲激励(RELP)线性预测编码算法,这些算法的音质都能达到很高的质量,而不像单脉冲LPC声码器的输出语音那样不为人们所接受。进入20世纪90年代,随着Internet在全球范围内的兴起和语音编码技术的发展,IP分组语音通信技术获得了突破性的进展和实际应用。最初的应用只是在网络游戏等软件包中传送和存储语音信息,它对语音质量要求低,相当于机器人的声音效果。其后计算机厂商纷纷推出对等方式或客户机—服务器方式语音通信免费软件,它们利用计算机中的声卡对语音进行打包传送,语音一般不进行压缩。20世纪90年代中期开始,有关厂商开始开发用于局域网语音通信的网关产品,实现局域网内PC间的语音通信以及经PBX和外界电话的通信,但这些产品都采用内部协议规范。20世纪90年代中期还出现了很多被广泛使用的语音编码国际标准,如数码率为5.3/6.4kb/s的G.723.1、数码率为8kb/s的G.729等。此外,也存在着各种未形成国际标准,但数码率更低的成熟的编码算法,有的算法数码率甚至可以达到1.2kb/s以下,但仍能提供可懂的语音。
20世纪90年代后期起,嵌入式语音编码作为一种新兴的语音编码技术,逐步成为本领域的研究热点之一。嵌入式语音编码又称为可分级性语音编码,在其编码码流中,低码率的码字包含(嵌入)在高码率的码字中,作为高速率工作的核心码元。也即,一个嵌入式的码流可以分解成几个低级的码流,它们的码率逐次递减,但仍然能代表原来的语音信号,只是在不同程度上损失了一些细节。当线路容量足够时,可高速率传输以保证较高的语音质量;当遇到线路拥塞时,可将码字中非核心码元丢弃,以低速率较差的语音质量工作,保证连续性。嵌入式的码流结构不仅可以有效解决由于分组丢失所引起的合成语音质量下降的问题,而且可以提供多种编码速率,以适应不同种类的通信终端。它以一个统一的能够提供多种速率输出的编解码系统代替了以往众多的固定速率编码算法,免去了不同种类终端通信带来的不便。
目前的语音编码研究主要朝两个方向发展:一是窄带低速率方向,目标是提高语音的可懂度,主要应用于军事等短波通信领域;二是宽带高速率分层编码方向,目标是提高人类对音质的需求,主要应用于基于包交换的移动互联网中。它既可以对语音进行编码,也可以对音频进行编码,但对音频编码时,需要对输入音频进行分类处理后才来决定编码框架,MPEG及ITU都制定了相关标准,目前最为成功的是由华为公司主导的EVS(enhanced voice service)编码器。
由于语音编码产品化的过程相对来说比语音识别容易些,因此其研究成果能很快转向实际应用,对通信事业的发展起了重要的推动作用。