1.2 语音信号处理的应用
语音信号处理技术是计算机智能接口与人机交互的重要手段之一。就语音识别技术而言,其基本任务是将输入语音转化为相应的文本或命令。语音识别的市场前景广泛,在一些应用领域中正迅速成为一个关键的具有竞争力的技术。如在声控应用中,计算机识别输入的语音内容,并根据内容来执行相应的动作;这些应用包括声控电话转换、声控语音拨号系统、声控智能玩具、信息网络查询、家庭服务、宾馆服务、旅行社服务、医疗服务、银行服务、股票查询服务、工业控制等。语音识别也可用于将文字以口授的方式输入的计算机中,即广泛开展的听写机研究,如声控打字机等。语音识别技术还可以用于自动口语翻译,通过将口语识别技术、机器翻译技术、语音合成技术等结合,可将一种语言输入的语音翻译为另一种语言的语音输出,实现跨语言的交流,如美国、日本、欧洲,包括中科院自动化所参加的CSTAR计划,重点开展多语种口语自动翻译研究。随着无处不在计算技术的发展,各种移动计算设备、可穿戴计算设备日益增多,对这些设备,其尺寸越来越小,并且要求在行走或驾驶时进行信息的输入,传统的键盘输入方式已不能满足其方便、自然,在行进中有效地输入信息的需要,采用语音识别技术可以解放用户的手眼,有效地改变人机交互手段。如目前在一些手持计算机、手机等嵌入式电子产品上已经使用语音识别技术来进行控制。
对说话人识别技术,近年来已经在安全加密、银行信息电话查询服务等方面得到了很好的应用。此外,在公安机关破案和法庭取证方面也发挥着重要的作用。
就语音合成而言,它已经在许多方面得到了实际应用,发挥了很好的社会效益,如公共交通中的自动报站、各种场合的自动报时、自动告警、电话自动查询服务、文本校对中的语音提示等。在电信声讯服务领域的智能电话查询系统中,采用语音合成技术可以解决以往通过电话只能进行静态查询的不足,满足海量数据和动态查询的需求,可查询一些动态信息,如股票、成绩、节目、热点问题、机场、车站、购物、市场、售后服务等信息;也可用于基于个人计算机的办公、教学、娱乐等智能多媒体软件,如文稿校对、语音学习(帮助外国人、残疾人、儿童等学习语言)、语音秘书、语音书籍、教学软件、语音玩具等。通过与互联网的结合,可以获取有声的E-mail、进行网上信息的有声获取及进行网上语音聊天。将语音合成技术与机器翻译技术相结合,可以实现语音翻译;与图像技术相结合,可以输出视觉语音(visual speech)。
就语音编码技术而言,它的根本作用是使语音通信数字化,目前已广泛应用于数字通信系统、移动无线通信、保密语音通信等方面。语音编码技术也可应用于呼叫服务,如数字录音电话、语音信箱、电子留言簿等。与模拟语音通信系统相比,数字语音通信系统具有抗干扰性强、保密性好、易于集成化等优点。在当前正在蓬勃兴起的移动通信中,语音编码技术是其中非常重要的支撑技术。
随着信息技术的不断发展,尤其是网络技术的日益普及和完善,语音信号处理技术正发挥着越来越重要的作用,并且出现了一些新的研究方向。
基于语音的信息检索是随着网络技术及面向数字图书馆技术的发展而出现的新的应用技术。传统的信息检索技术大多是基于文本信息的,诸如雅虎、谷歌等各种搜索引擎,就是这方面的典型应用。随着语音识别技术的不断发展和完善,基于语音识别的信息检索技术正成为当今的研究热点。
随着Internet网络技术的迅速发展,出现了Internet电话技术,它是一种用VoIP(voice over internet protocol)技术实现的通过TCP/IP网络,而不是传统的电话网络来传输语音的新的通信方式,通常称为IP电话技术。对这种经过数据压缩,并经过网络以数据包形式传输后的语音进行识别,与传统的语音识别技术有着很大的不同,这提出了一个新的研究课题,即网络环境下的语音识别问题,它在电子商务和国防军事应用领域有着广阔的应用前景。而随着手持计算机、手机等电子设备的迅猛发展,研制开发这些设备上嵌入式的语音识别算法越来越引起人们的重视,目前已经出现了一些可用语音识别进行声音拨号,以及口述关键词进行信息查询的手机,这类技术的不断完善对移动计算技术的发展有着重要的意义。
语音训练与校正技术也是近年来的一个重要研究方向。当今社会越来越多的人,希望学习和掌握其他的非母语语言,以利于更方便地进行交流。然而,语言不通往往成为交流的最大障碍。因此,语言学习已成为当今教育领域的一个热点。实践证明,采用传统的课堂教学对于学习一门非母语语言来说是远远不够的。自学是一种有效的途径,它具有不受时间地点限制、灵活方便等特点。随着计算机技术的迅速发展,一种称为计算机辅助语言学习(computer-aided language learning, CALL)的技术应运而生;而伴随着语音识别技术的进步,人们开始研究进行辅助发音学习的CALL技术。在发音学习中,有效地反馈是必不可少的一个重要环节。在课堂教学中,教师是一个有效的反馈源,而传统的发音自学中,要么是没有任何反馈,要么就是反馈最终还得依赖于学习者自身的判断能力,如利用复读机学习发音时,学习者只能依靠自己的感知能力去比较其发音与标准发音的差别,从而进行发音的修正。如果利用辅助发音学习的CALL系统,学习者就可以随时获得有效的反馈,包括分值或等级等简洁直观的形式,图谱或口形等具体形象的形式,以及直接的指导性建议。
语种识别(language identification)也是近年来新出现的研究方向,它是通过分析处理一个语音片段以判别其所属语言的种类,本质上也是语音识别的一个方面。由于世界上的不同语种间有着多种区别性特征,如音素集合、音位序列、音节结构、韵律特征、词汇分类、语法及语义网络等,所以在自动语种识别中有多种可以利用的特征。对于一个语种识别系统,它和语音识别系统与说话人识别系统有着很多相似之处,如都要经过数字化、特征提取、模式匹配等过程。语种识别可以应用于多语言语音识别的前端处理,在信息检索、军事领域和国家安全事务中有着重要的应用。
基于语音的情感处理研究是当今一个重要的研究方向。在人与人的交流中,除了言语信息外,非言语信息也起着非常重要的作用。随着计算机技术的迅速发展,人机交流变得越来越普遍,计算机正成为日常生活工作中的得力助手。为使人机交流更自然、更人性化,十分有必要进行人机非言语交流方式的研究。尽管人们早已认识到非言语交流的重要性,但时至今日,大多数研究还仅仅是基于视觉信息的工作,如面部表情识别、手势识别等。语音作为语言的声音表现形式,是人类交流信息最自然、最有效、最方便的手段。人类的语音中不仅包含了语言学信息,同时也包含了人们的感情和情绪等非言语信息。例如,同样一句话,往往由于说话人的情感不同,其意思和给听者的感觉就会不同。传统的语音处理系统仅仅着眼于语音词汇传达的准确性,而完全忽视了包含在语音信号中的情感因素,所以它只是反映了信息的一个方面。直到近年来,人们发现由于情感和态度所引起的变化对语音合成、语音识别、说话人确认的影响较大,才逐步引起了人们的重视。目前许多研究者都在致力于研究情感对语音的影响,以及情感状态下语音信号处理的有效方法。