自然语言处理导论
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.1.2 词的词性

词性(Part Of Speech,POS)也称词类,是根据词在句子中扮演的语法角色以及与周围词的关系对词的分类。例如,表示事物的名字(“钢琴”)、地点(“上海”)的词通常被归为名词,而表示动作(“踢”)、状态(“存在”)的词被归为动词。在对词性进行划分时,通常要综合考虑词的语法特性的各个方面,以某一个标准为主,同时参照其他标准。通过词性可以大致圈定一个词在上下文环境中有可能搭配的范围,例如,介词“in”后面通常跟名词短语。通过词性可以为语法分析、语义理解提供帮助。因此,词性也被称为带有“分布式语法”的信息(Syntactic Distributional Property)。

现在语言学中一个重要的词的分类是区分实义词和功能词。实义词表达具体的意义。由于实义词可以不断地增加,因此这类词又被称作开类词(Open Class Word)。实义词主要包含名词、动词、形容词等。功能词则主要是为了满足语法功能需求。由于功能词相对比较稳定,一种语言中通常很少增加新的功能词,因此功能词又被称作闭类词(Close Class Word)。功能词主要包含代词、冠词、指示词等。

以英语为例,词性主要包含以下几种。

名词(Noun)是表示人、物、地点以及抽象概念的一类词。按照意义,名词可以分为专有名词(Proper Noun)和普通名词(Common Noun)。普通名词还可以再细分为类名词(Class Noun)、集体名词(Collective Noun)、物质名词(Material Noun)和抽象名词(Abstract Noun)。按照可数性,名词还可以分为可数名词(Countable Noun)和不可数名词(Uncountable Noun)。

例如,①专有名词:Shanghai(上海),New York(纽约)

②类名词:city(城市),bird(鸟)

③集体名词:family(家庭),army(军队)

④物质名词:water(水),light(光)

⑤抽象名词:music(音乐),honesty(诚实)

动词(Verb)是表示动作或状态的一类词,是英语中最复杂的一类词。动词除了具有人称和数的变化,还具备一些语法特征,包括时态(Tense)、语态(Voice)、语气(Mood)、体(Aspect)等。动词可以进一步细分为及物动词(Transitive Verb)、不及物动词(Intransitive Verb)、连系动词(Linking Verb)、助动词(Auxiliary Verb)、限定动词(Finite Verb)、不限定动词(Non-finite Verb)、短语动词(Phrasal Verb)等。

例如,①Boys fly kites.(男孩们放风筝。)

②不及物动词:Birds fly.(鸟会飞。)

③连系动词:The rose smells sweet.(玫瑰花香。)

④助动词:I may have meet him before.(我以前应该见过他。)

⑤限定动词:John reads papers every day.(约翰每天都读论文。)

⑥不限定动词:I hope to see you this morning.(我希望早上见到你。)

⑦短语动词:Tom called up George.(汤姆给乔治打了电话。)

形容词(Adjective)是用来描写或修饰名词的一类词。按照构成,形容词可以分为简单形容词和复合形容词。按照与其所修饰的名词的关系,形容词还可以分为限制性形容词(Restrictive Adjective)和描述性形容词(Descriptive Adjective)。

例如,①简单形容词:

(a)由一个单词构成:good(好的),long(长的)

(b)由现在分词构成:interesting(令人感兴趣的)

(c)由过去分词构成:learned(博学的)

②复合形容词:duty-free(免税的),hand-made(手工制作的)

③限制性形容词:an Italian dish(一道意大利菜)

④描述性形容词:a delicious Italian dish(一道美味的意大利菜)

副词(Adverb)是用来修饰动词、形容词、其他副词以及全句的一类词。按照形式,副词可以分为简单副词、复合副词和派生副词。按照意义,副词又可以分为方式副词、方向副词、时间副词、强调副词等。按照句法作用,副词还可以分为句子副词、连接副词、关系副词等。

例如,①简单副词:just(刚刚),only(仅仅)

②复合副词:somehow(不知怎的),somewhere(在某处)

③派生副词:interesting →interestingly(有趣地)

④方式副词:quickly(迅速),awkwardly(笨拙地)

⑤方向副词:outside(外面),inside(里面)

⑥时间副词:recently(最近),always(总是)

⑦强调副词:very(很),fairly(相当)

数词(Numeral)是表示数目多少或者先后顺序的一类词。表示数目多少的数词叫作基数词(Cardinal Numeral),表示顺序先后的数词叫作序数词(Ordinal Numeral)。

例如,①基数词:one(1),nineteen(19)

②序数词:first(第一),fiftieth(第五十)

代词(Pronoun)是代替名词以及起名词作用的短语、子句和句子的一类词。代词的词义信息较弱,必须通过上下文来确定。代词主要可以分为人称代词(Personal Pronoun)、物主代词(Possessive Pronoun)、自身代词(Self Pronoun)、相互代词(Reciprocal Pronoun)、指示代词(Demonstrative Pronoun)、疑问代词(Interrogative Pronoun)、关系代词(Relative Pronoun)和不定代词(Indefinite Pronoun)。

例如,①人称代词:

(a)主格:I,you,he,she,it,we,they

(b)宾格:me,you,him,her,it,us,them

②物主代词:

(a)形容词性物主代词:my,your,his,her,its,our,their

(b)名词性物主代词:mine,yours,his,hers,its,ours,theirs

③自身代词:myself,yourself,himself,herself,itself,ourselves,yourselves,themselves,oneself

④相互代词:each other,one another

⑤指示代词:this,that,these,those

⑥疑问代词:who,whom,whose,which,what

⑦关系代词:who,whom,whose,which,that,as

⑧不定代词:some,something,somebody,someone,any,anything,anybody,anyone,no,nothing,nobody,no one

冠词(Article)是置于名词之前,说明名词所指的人或事物的一种功能词。冠词不能离开名词而独立存在。英语中冠词有三种:定冠词(Definite Article)“the”、不定冠词(Indefinite Ar-ticle)“a/an”和零冠词(Zero Article)。

介词(Preposition)又称前置词,是用于表示名词或相当于名词的词语与句中其他词语的关系的一类词。介词在句子中不单独作为任何句子成分。介词后面的名词或者相当于名词的词语叫作介词宾语,与介词共同组合成介词短语。从介词的构成来看,其主要包含简单介词(Simple Prepo-sition)、复合介词(Compound Preposition)、二重介词(Double Preposition)、短语介词(Phrasal Preposition)、分词介词(Participle Preposition)。

例如,①简单介词:at,in,of,since

②复合介词:as for,as to,out of

③二重介词:from under,from behind

④短语介词:according to,because of

⑤分词介词:including,regarding

连词(Conjunction)是用来连接单词、短语、从句或句子的一类词。连词在句子中也不单独作为句子成分。按照构成,连词可以分为简单连词(Simple Conjunction)、关联连词(Correlative Conjunction)、分词连词(Participial Conjunction)和短语连词(Phrasal Conjunction)。按照性质,连词又可以分为并列连词(Coordinative Conjunction)和从属连词(Subordinative Con-junction)。

例如,①简单连词:and,or,but,if

②关联连词:both··· and,not only··· but also

③分词连词:supposing,considering

④短语连词:as if,as long as,in order that

⑤并列连词:and,or,but,for

⑥从属连词:that,whether,when,because

感叹词(Interjection)是用来表示喜怒哀乐等情绪或情感的一类词。感叹词没有实际意义,也不能在句子中作为任何句子成分,但是其与全句有关联。

例如:Oh,it's you!(啊,是你!)

Ah,how pitiful!(呀,多可惜!)

在语言学研究中,对于词性划分的标准、依据甚至目的等都存在大量分歧。到目前为止,还没有一个被广泛认可的统一词性划分标准。在不同的语料库中所采用的划分粒度和标记符号也都不尽相同。例如,英语宾州树库(Penn Treebank)中使用了48种不同的词性,汉语宾州树库(Chinese Penn Treebank)中的汉语词性被划分为33类,而布朗语料库(Brown Corpus)[44]中则使用了87种词性。虽然在语言学中词性还有很多需要研究的内容,但是由于词性可以提供关于词及其周边邻近成分的大量有用信息,词性分析也是自然语言处理中重要的基础任务之一。