1.7 NLP的应用场景
目前,随着自然语言处理领域研究越来越深入,其应用的行业越来越广。比如在文本和语音方面的应用。其中,我们可以看到NLP在文本方面的应用有基于自然语言理解的智能搜索引擎和智能检索、智能机器翻译、自动摘要与文本综合、文本分类与文件整理、智能自动作文系统、智能判卷系统、信息过滤与垃圾邮件处理、文学研究与古文研究、语法校对、文本数据挖掘与智能决策以及基于自然语言的计算机程序设计等。在语音方面的应用有机器同声传译、智能远程教学与答疑、语音控制、智能客户服务、机器聊天与智能参谋、智能交通信息服务(ATIS)、智能解说与体育新闻实时解说、语音挖掘与多媒体挖掘、多媒体信息提取与文本转化以及对残疾人智能帮助系统等。下面我们给出一些常见的应用场景。
1. 搜索引擎
在搜索引擎中,我们常常使用词义消歧、指代消解、句法分析等自然语言处理技术,以便更好地为用户提供更加优质的服务。因为我们的搜索引擎不仅仅是为用户提供所寻找的答案,还要做好用户与实体世界连接的贴心服务。搜索引擎最基本的模式就是自动化地聚合足够多的信息,对之进行解析、处理和组织,响应用户的搜索请求并找到对应结果再返回给用户。这里涉及的每一个环节,都需要用到自然语言处理技术。例如,我们日常生活中使用百度搜索“天气”“XX公交线路”“火车票”等这样略显模糊的需求信息,一般情况下都会得到满意的搜索结果。自然语言处理技术在搜索引擎领域中有了更多的应用,才使得搜索引擎能够快速精准地返回给用户所要的搜索结果。当然,另一方面,正是谷歌和百度这样IT巨头商业上的成功,推进了自然语言处理技术的不断进步。
2. 推荐系统
早在1992年Goldberg就首次给出了一个推荐系统:Tapestry。它其实只是一个个性化的邮件推荐系统,首次提出了协同过滤的思想,利用用户的标注和行为信息对邮件进行重排序。推荐系统依赖的是数据、算法、人机交互等环节的相互配合,其中使用了数据挖掘、信息检索和计算统计学等技术。我们使用推荐系统的目的是关联用户和一些信息,协助用户找到对其有价值的信息,且让这些信息能够尽快呈现在对其感兴趣的用户面前,从而实现精准推荐。
推荐系统在音乐电影的推荐、电子商务产品推荐、个性化阅读、社交网络好友推荐等场景发挥着重要的作用,美国Netflix中2/3的电影是因为被推荐而观看的,Google News利用推荐系统提升了38%的点击率,Amazon的销售中推荐占比高达35%。
3. 机器翻译
机器翻译是自然语言处理中最为人知的应用场景,一般是将机器翻译作为某个应用的组成部分,例如跨语言的搜索引流等。目前以IBM、谷歌、微软为代表的国外科研机构和企业均相继成立机器翻译团队,专门从事智能翻译研究。例如,IBM于2009年9月推出ViaVoiceTranslator机器翻译软件,为自动化翻译奠定了基础;2011年开始,伴随着语音识别、机器翻译技术、DNN(深度神经网络)技术的快速发展和经济全球化的需求,口语自动翻译研究已成为当今信息处理领域新的研究热点,Google于2011年1月正式在其Android系统上推出了升级版的机器翻译服务;微软的Skype于2014年12月宣布推出实时机器翻译的预览版、支持英语和西班牙语的实时翻译,并宣布支持40多种语言的文本实时翻译功能。
尤其值得注意的是,在“一带一路”这一发展背景下,合作沟通会涉及60多个国家、53种语言,此时机器翻译的技术应用显得尤为重要,语言的畅通是“一带一路”倡议得以实施的重要基础。机器翻译涉及语义分析、上下文环境等诸多挑战,其发展道路还有很长一段路要走。
4. 聊天机器人
聊天机器人是指能通过聊天App、聊天窗口或语音唤醒App进行交流的计算机程序,是被用来解决客户问题的智能数字化助手,其特点是成本低、高效且持续工作。例如,Siri、小娜等对话机器人就是一个应用场景。除此之外,聊天机器人在一些电商网站有着很实用的价值,可以充当客服角色,例如京东客服JIMI。有很多基本的问题,其实并不需要联系人工客服来解决。通过应用智能问答系统,可以排除掉大量的用户问题,比如商品的质量投诉、商品的基本信息查询等程式化问题,在这些特定的场景中,特别是会被问到高度可预测的问题中,利用聊天机器人可以节省大量的人工成本。图1-2给出了一些聊天机器人产品。
5. 知识图谱
知识图谱能够描述复杂的关联关系,它的应用极为广泛,最为人所知的就是被用在搜索引擎中丰富搜索结果,并为搜索结果提供结构化结果来体现关联性,这也是谷歌提出知识图谱的初衷。同时微软小冰、苹果Siri等聊天机器人中也加入了知识图谱的应用。IBM Watson是问答系统中应用知识图谱较为典型的例子。按照应用方式,可以将知识图谱的应用分为语义搜索、知识问答以及基于知识的大数据分析和决策等。
图1-2 部分聊天机器人示意图
语义搜索利用建立大规模知识库对搜索关键词和文档内容进行语义标注,改善搜索结果,如谷歌、百度等在搜索结果中嵌入知识图谱。知识问答是基于知识库的问答,通过对提问句子的语义分析,将其解析为结构化的询问,在已有的知识库中获取答案。在大数据的分析和决策方面,知识图谱起到了辅助作用,典型应用是美国Netflix公司利用其订阅用户的注册信息以及观看行为构建的知识图谱反映出英剧版《纸牌屋》很受欢迎,于是拍摄了美剧《纸牌屋》,大受追捧。知识图谱展示如图1-3所示。
图1-3 知识图谱展示图