2.2.4 语音识别
语音识别(Automatic Speech Recognition,ASR)可以把人们语音中的文字转换为计算机可输入并读取的内容,如文本、字符序列、二进制编码等,是一种对说话人发出的语音内容进行转换的技术。
语音识别技术的起源最早可以追溯到1952年贝尔实验室的Audrey系统,它是世界上第一个可以识别10个英文数字的语音识别系统。如今,随着计算机运算能力的提高,以及深度神经网络模型的出现,语音识别技术逐渐成熟。具体地,深度学习通过模拟人脑处理机制,将每个神经元作为最小处理节点,有效构成一个深层的学习网络,基于深度学习网络的语音识别,目前已经达到商用的水平,常见的如百度语音助手、苹果Siri、科大讯飞的语音输入法等,都表现出较高的使用价值。
1. 语音识别的前景展望
语音识别的作用范围可分为近场和远场。目前,近场语音识别可以达到很高的精度,而远场识别由于受噪声、混响、回声信号干扰,会与训练出的识别模型不相匹配,因此精度下降明显,用户体验不佳。若采用远场语音数据训练模型,会有精度的提升,但由于混响信号复杂,模拟远场说话的数据与真实场景存在差距,数据收集存在困难。可以说,目前语音识别在远场方面仍面临着挑战。因此,在远场语音识别时,涉及前端语音预处理和后端识别引擎的配合,需要进一步融合强化,避免语音信号丢失。另外,因为多话筒阵列具有固定波束增强、噪声抑制、消除背景噪声干扰等功能,所以配合硬件设备进行应用也可作为增强语音识别效果的外在手段。
2. 语音识别的应用场景
下面介绍语音识别的三个典型应用场景。
(1)汽车
由于安全法规的要求,汽车制造商只能在车内提供有限的触觉互动功能,而基于语音识别的免提语音交互界面将给汽车制造商提供大量的新选项。它们可在车内安装智能显示屏,除了支持传统的触控操作外,还支持实时唤醒的语音识别操作,形成在汽车场景下的智能声控新模式。
(2)可穿戴设备
目前,语音识别技术已经融入无屏幕的可穿戴设备中。传统的可穿戴设备如Google眼镜,由于集成有触控面板等器件而体积过大,导致用户体验不佳。若应用语音交互功能,在可穿戴设备上减少额外的触控器件,那么设备将会变得更小、更轻、更少分散注意力。语音识别控制将增加可穿戴技术的应用,并让这些设备融入消费者的日常生活中。
(3)实时翻译
随着语音识别的兴起,人工翻译的热度可能要逐渐消退。像Google这样的公司正投资于更智能的语音处理系统,如Google翻译已经从一个简单的文本翻译应用演变成具有听力能力的成熟翻译应用,落地应用也有同声传译、翻译机等产品。可以看到,这些系统和产品将会改变这个行业的未来。