1.3.1 情感分析
情感分析(sentiment analysis)又称为意见挖掘(opinion mining),是情感计算程序对文本中的情感与观点信息进行识别、分类、抽取、分析的过程[12]。随着互联网的快速发展,情感分析一方面获得了大量的数据来源,另一方面也在电子商务、市场营销等领域有了广阔的应用空间。因此,情感分析得以快速兴起并成为自然语言处理的一个重要的研究领域。根据分析层次、粒度的不同,可以将情感分析分类为篇章级情感分析、句子级情感分析和细粒度情感分析。此外,立场分析因其独特的应用价值,逐渐发展成了情感分析中一个被专门研究的问题。
1.篇章级情感分析
篇章级情感分析(document-level sentiment analysis)是对整篇文章所表达的情感进行分类的任务,通常将情感分为正面、负面两类[12]。例如,电子商务平台中一位用户对产品发表的评论就可以看作一个篇章,篇章级情感分析方法旨在判断该评论所表达的情感是正面的还是负面的。这种层次的分析隐含地假设整篇文档只对单一实体(例如单个产品、单次事件)发表了意见,并且只对其表达了一种情感。因此,篇章级情感分析不适用于对多个实体对象进行评估、比较的文档。
在篇章级情感分析任务中,可以直接将情感分类视作对文档本身的分类,只需要将情感的倾向性或者极性作为文本分类的类别即可。因此,可以将文本分类的方法与技术较为直接地迁移到篇章级情感分析任务中,篇章级情感分析也因此是各个不同的情感分析任务中最简单、最基本的一种。但是,在现实生活中,一篇文档往往对多个实体对象表达情感,因此,在现实应用中仍然需要更细化的情感分析方法。
2.句子级情感分析
句子级情感分析(sentence-level sentiment analysis)旨在判断句子是否表达了正面、负面或者中性的情感[12],其中中性意味着没有表达情感。例如,在商品评论“前两周我买了一个联想超级本T431s,它轻便、安静、散热性好,新的触压板也不错。”中,第一个句子没有表达任何情感或观点,只陈述了一个事实,是中性的,另外两个句子都表达了正面的情感。
与篇章级情感分析类似,句子级情感分析任务假设只有主观句包含观点,并且每个句子只包含一种情感。基于该假设,现有研究常常把对上述示例评论的情感分析看作三分类问题或两个独立的二分类问题。对于前者,直接对句子进行正面、负面或中性的情感分类。对于后者,先对句子进行主客观分类(即判断句子是否包含观点),然后分析句子的情感极性(即判断句子表达正面还是负面的情感)。总体而言,句子级情感分析与篇章级大致相同,因为句子可以被视为短文档。但是句子中包含的信息比文档要少得多,导致句子级情感分析更加困难。
虽然篇章级和句子级情感分析都提供了整体的情感倾向,但是它们都假设文本跨度(文档或句子)内传达的情感是统一的,这个假设在现实中往往并不成立。例如,在评论“这款手机屏幕很清晰,但是电池不耐用”中,评价者对该手机的屏幕持有正面的情感,而对该款手机的电池持有负面情感。在这种情况下,无法将这个句子简单地判别为拥有统一的情感,因此有必要研究细粒度情感分析。
3.细粒度情感分析
细粒度情感分析,又称方面级情感分析(aspect-level sentiment analysis),旨在识别句子中的实体(方面术语)及其所对应的情感极性(sentiment polarity)和观点词(opinion term)[12]。例如,在句子“这款手机屏幕很清晰,但是电池不耐用”中,方面术语是“屏幕”和“电池”,其中屏幕的情感极性是正面的,电池的是负面的,观点词分别是“很清晰”和“不耐用”。
在细粒度情感分析中涉及方面术语、情感极性、观点词这三种要素,对这三种要素进行任意的组合,总共有以下七种不同的任务。
1)方面抽取:抽取句子中的方面术语。
2)观点抽取:抽取句子中的观点词。
3)方面级情感分类:预测句子中给定方面术语的情感极性。
4)面向方面的观点抽取:为句子中给定的方面术语抽取成对的观点词。
5)方面抽取和情感分类:抽取方面术语的同时预测其对应的情感极性。
6)关联对抽取:抽取句子中的方面术语及其对应的观点词。
7)三元组抽取:抽取句子中的方面术语及其对应的观点词,并预测其情感极性。
4.立场分析
立场分析(stance detection)通常被视为情感分析的一个子问题,它的主要任务是识别文本作者对文本中明确提及或暗示的对象(实体、概念、事件、想法、意见、主张、主题等)的立场[13]。具体来说,对给定的(文本,对象)对,立场分析需要判别文本对对象保持的立场倾向是支持、反对还是中性。在立场分析任务中,文本中不一定明确提及了需要分析立场的目标对象。例如,在文本“吸取电子邮件争议带来的教训,不要相信这个邮件骗子。”中并没有明确提及对象“希拉里·克林顿”。因此,需要建模文本与对象之间的语义关系才能判断文本作者所要表达的立场。
立场分析在社会治理、社交媒体分析等领域具有广阔的应用空间。例如,在热点事件中,可以使用立场分析算法来研判和分析公众对事件的看法,实现对情况的分析与跟踪。此外,在网络社交媒体上新闻的传播速度较快,假新闻和谣言也层出不穷,立场检测可以分析网络用户对潜在谣言所站的立场,从而有助于发现并阻止谣言的传播。