中国语言文字事业发展报告(2017)
上QQ阅读APP看书,第一时间看更新

第一节  语言文字信息技术发展与应用

语言文字信息技术是语言文字信息化建设的关键,也是人工智能最重要的环节之一。我国的语言文字信息处理可以分为两个层面:一是以字或字形为单位的字处理技术,旨在使汉字、少数民族文字及相关字符进入计算机,并通过一定的技术读取、调用、编辑、显示和输出;二是以词语、句子、篇章为单位的语言处理技术,旨在实现计算机的语义理解,进而满足机器翻译、自动问答等智能应用的需要。

一、 文字处理技术

作为语素文字,汉字数量庞大。上世纪80年代以来,我国已成功地使7万多汉字及相关字符进入计算机。汉字处理技术主要包括两个方面:一是如何准确、快捷地在计算机中读取、调用不同的汉字字符,即汉字输入技术;二是如何在屏幕或打印设备上显示或输出汉字字符图形,即汉字输出技术。此外,汉字简繁转换技术近年来也取得了重大进步。总体而言,汉字处理技术已经成熟,基本适应了人们汉字信息化处理的日常需求。

(一) 汉字输入

1. 键盘输入技术

上世纪70年代以来,为实现汉字进入计算机这样一个“科学的梦”,在政府的指导和各方学者的努力下,汉字键盘输入技术研究得到迅速发展。据不完全统计,国内已登记的汉字编码输入技术专利近3,000种,其中已在不同时期、不同领域推广应用的输入法或系统近百种,主要包括形码、音码两种技术路径,如五笔字型、双拼、智能ABC、微软拼音等。目前使用广泛的是属于音码的拼音输入法。拼音输入法可以整句输入,具有较高智能水平,由于学习成本低,效率高,受到用户的青睐,市场占有率达95%以上,如搜狗输入法、百度输入法等。

2. 光学字符识别技术注10

我国面向汉字的光学字符识别研究始于上世纪70年代末。目前印刷体汉字识别和联机手写体识别均已实用化,高质量的印刷体识别正确率可达99%以上。百度、汉王科技、清华紫光、科大讯飞、捷通华声等多家企业都开发出了成熟的文字识别产品,较好地满足了文秘、教育、图书馆等领域的文字识别需求,也为图像检索、识图翻译等高级应用奠定了基础。

(二) 汉字输出

上世纪80年代,激光照排技术使中文字体从铅字时代进入光电时代。90年代,我国字库行业迅速发展,出现了十余家字库厂商,较知名的有方正、汉仪、华文、华光、中易、四通、长城等。进入新世纪,随着市场与技术的发展,中国字库行业有了质的飞跃,不仅开发出了多款利于排版印刷、便于用户阅读的正文类字体,还新增了近200款创意、书法类字体,用以满足各类设计需求。目前我国字体款数已超过600款。

移动互联网的发展也促使字库行业不断进行技术创新,如针对移动设备存储问题的字库压缩技术、针对小字号屏幕显示清晰度问题的Hint指令技术、针对网页字体嵌入问题的字库云服务等。

图2.1.1  不同书体汉字及部分少数民族文字字库字形示例

2006年,新闻出版总署启动“中华字库”工程,旨在搜集、整理、编码并构建涵盖古今汉字和古今少数民族文字形体的大规模字库系统。工程预计收录的历代汉字字符和其他字符约30万个。

(三) 汉字简繁转换

2012年以来,在教育部、国家语委的立项支持下,厦门大学、教育部语言文字应用研究所、北京师范大学联合研发了“汉字简繁文本智能转换系统”(simplified characters to traditional characters,简称s2t)。该系统支持《通用规范汉字表》和国际标准Unicode 8.0的全部汉字,提供字、词、专业术语、标点等不同层次的简繁转换功能,并提供了在线转换服务和网站全站转换服务。系统克服了同类软件在“一简对多繁”转换情况下的不足,能够实现“面向台湾、香港”和“面向古籍”两种字体简繁转换,供公众免费使用。2014年11月至2017年3月,系统单机版共下载14.8万次,网页版共完成在线转换请求2,200万次,平均每天2.57万次。注11

该系统一期工程于2014年11月发布,二期工程于2016年6月研发完成,并于年内获得中国中文信息学会“钱伟长中文信息处理科学技术奖”。系统功能和主要技术指标如表2.1.1所示。

表2.1.1  s2t系统在功能特性和主要技术指标上与其他同类系统的对比注12

二、 语言处理技术

近年来语言处理技术发展迅速,其中较为活跃的方向包括语音技术、文本处理技术、机器翻译和知识图谱。语言处理技术的迅猛发展极大地丰富了语言生活,并在推动语言研究的同时也对其提出了新的需求。

(一) 语音技术

目前,语音技术主要包括语音合成、语音识别和话者识别。

1. 语音合成注13

近年来,我国语音合成系统在输出语音的质量、自然度等方面得到明显提高,能较好地满足许多特定场合的需求,并在公共场所的信息播报系统、各类导航系统、自动应答系统等方面实现了广泛的应用,并逐渐向娱乐、语音教学、康复治疗等领域拓展。

科大讯飞公司凭借自主研发的技术,在国际著名语音合成评测活动“暴雪挑战赛”上连续多年夺得多个项目第一,标志着我国语音合成技术已达到国际领先水平。

2. 语音识别注14

目前我国的语音识别相关应用已进入蓬勃发展阶段,近场低噪识别水平已接近人类。2016年国际多通道语音识别与分离大赛中,科大讯飞公司的自主研发技术在多种场景下的词错误率创下新低,达到2.24%—9.15%,在竞赛测试集上夺得全部项目第一。百度、捷通华声、云之声等企业也在语音识别领域研发了各具特色的技术产品。

我国语音识别技术的成熟和应用极大地推动了语言教育(尤其是普通话水平培训测试)、公共服务、电子商务、个人助理和国家安全等众多领域的技术创新和服务变革。

3. 话者识别注15

话者识别技术目前已经成为一项较为成熟的现代应用技术,能够较好地满足救援、航运、广播电视、公共安全等应用场景的需要。中国科学院声学研究所、科大讯飞公司等的技术与产品已达国际先进水平。在美国国家标准与技术研究院(NIST)举办的话者识别评测中,科大讯飞公司的识别系统于2008年获综合指标第一名,2010年获综合指标第二名。

(二) 文本处理技术

文本处理技术可以分为词法分析、句法分析和语义分析三个层面。词法分析包括中文分词和词性标注,句法分析是对句子进行自动分析以得到其句法结构,语义分析的目的是理解句子表达的真实语义。

1. 词法、句法分析技术注16

目前,词法、句法分析主要使用统计、深度学习等方法,在分词、词性标注语料和树库上自动训练并构建词法和句法分析系统。在2014年的国际计算语言学学会中文处理特别兴趣小组(ACL SIGHAN)中文分词评测中,最优系统在竞赛测试集上F1注17值达到97.3%。同年的中文句法分析评测中,最优系统在组合范畴语法测试集上的F1值达到71.8%。目前中文分词、词性标注和句法分析技术基本可以支持包括语义分析、信息检索和信息抽取在内的上层应用。

2. 语义分析技术注18

语义分析是文本分析的重点和难点。目前中文的浅层语义分析技术在信息抽取、信息检索和自动问答等应用中起到了重要作用。但深层语义分析难度较大,尤其是句子级和篇章级的语义分析仍难以满足现实需求。在2016年的国际计算语言学学会语义评测竞赛(ACL SemEval)中,最优系统在语义依存测试集上语义成分标记的F1值最高达到了68.6%。

(三) 机器翻译注19

机器翻译自上世纪50年代诞生以来发展至今,开始步入普惠大众、服务社会的实用阶段。在我国“十二五”规划“863”项目的支持下,由百度公司牵头,中国科学院自动化研究所、浙江大学、哈尔滨工业大学、中国科学院计算研究所和清华大学联合完成的基于互联网大数据的统计机器翻译产业化项目成功应用,荣获2015年度国家科技进步奖二等奖。

2016年,机器翻译又取得了长足进步,百度、搜狗、科大讯飞、腾讯、有道等多家民族企业生产出了一批初具实用性的机器翻译产品,在众多具有外语和少数民族语言需求的领域发挥了重要作用。

(四) 知识图谱注20

近年来,知识图谱在智能问答中显示出巨大威力,也给互联网语义搜索带来活力,成为互联网智能服务的基础设施。在智能问答领域,基于知识图谱的问答通过对问句的语义分析,将非结构化问句解析成结构化的查询语句,在已有结构化的知识库上查询答案。语义搜索则利用大规模知识图谱对用户搜索关键词和文档内容进行语义标注,改善搜索结果。国内的典型应用有百度的“知心”、搜狗的“知立方”等,另还有许多高校和科研院所建设有特定领域的知识图谱。