上QQ阅读APP看书,第一时间看更新
1.2 自然语言处理方面的任务
NLP其实有许多实际的应用,而一个好的NLP系统会执行多个任务系统。比如,上面提到的你要在当前位置选择麻辣烫小吃店的例子,其实就是在执行多个NLP任务系统。关于NLP的任务,主要有以下几类:
- 标记化:标记化是将文本语料库分离为原子单元(例如,单词)的任务。虽然看似微不足道,但是标记化却是一项非常重要的工作任务。例如,在日语中,单词不以空格或标点符号分隔。
- 词义消歧(Word-sense Disambiguation,WSD):词义消歧是识别单词正确含义的任务。例如,有两个句子,“你提供的图真好看”和“你图啥?”,其中“图”就有两种不同的含义。词义消歧对于诸如问答之类的任务至关重要。
- 命名实体识别(Named Entity Recognition,NER):NER尝试从给定的文本主体或文本语料库中提取实体(例如,人、位置和组织)。例如,有一个句子,“林阿姨昨天在小区门口给了小明两瓶牛奶”,将被转换为林阿姨人昨天时间在小区门口位置给了小明人两瓶数量牛奶。NER是信息检索和知识表示等领域的一个重要课题。
- 词性(Part-of-Speech,PoS)标注:是词汇基本的语法属性,通常也称为词类,既可以是名词、动词、形容词、副词、介词等基本标签,也可以是诸如专有名词、普通名词、短语动词等。词性标注就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程,是中文信息处理面临的重要基础性问题,主要可以分为基于规则和基于统计的方法。
- 句子/概要分类:句子或概要(例如,电影评论)分类有许多用例,例如垃圾邮件检测、新闻文章分类(诸如政治、科技和体育等)和产品评论评级(正面或负面)。这是通过训练带标签的数据(由人类注释的评论,带有积极或消极的标签)来训练分类模型实现的。
- 文本生成:在文本生成中,学习模型(例如,神经网络)使用文本语料库(大量文本文档集合)进行训练,预测随后的新文本。例如,文本生成可以通过使用现有的小说故事文本进行训练来输出一个全新的小说故事文本。当然,具体的实现过程会涉及具体模型的实施,具有一定的复杂性。本书第8章将专门针对文本生成做详细解读。
- 问答(QA)系统:QA技术具有很高的商业价值,因为这些技术是聊天机器人和VA(例如谷歌Assistant和苹果Siri)实现的基础所在。聊天机器人已经被许多公司用于客户支持工作。聊天机器人可以用来回答和解决客户直接关心的问题,而不需要人工干预。QA涉及NLP的许多方面,比如信息检索和知识图谱中的知识表示。因此开发QA系统变得更加具有挑战性。
- 机器翻译:是将一个句子/短语从源语言(如汉语)转换为目标语言(如英语)的任务。这是一个非常具有挑战性的任务,因为不同的语言具有高度不同的形态结构,这意味着它不是一对一的转换。此外,语言之间的字对字关系可以是一对多、一对一、多对一或多对多。这在MT文献中被称为单词对齐问题。
为了开发一个可以帮助人们完成日常任务的系统(例如,VA或聊天机器人),这些任务中的许多工作需要放在一起执行。正如我们在前面的例子中看到的那样,“请告诉我附近好吃的麻辣烫在哪儿?”需要完成几个不同的NLP任务,例如语音到文本转换、语义和情感分析、问题回答和机器翻译。在图1.1中,我们提供了不同NLP任务的层次分类。我们首先有两大类任务:分析(分析现有文本)和生成(生成新文本)任务。然后将分析分为三类:句法(基于语言结构的任务)、语义(基于意义的任务)和语用(难以解决的开放问题),如图1-1所示。
目前,我们对于自然语言处理及其各种任务分类有了一定的了解,下面我们将探讨一下NLP的起源、发展及现状。
图1-1 广义范畴下的NLP主要任务分类