自然语言处理导论
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.1.1 词的形态学

虽然词的形式和意义之间的关系本质上是任意的,但是由于社会的约定俗成,词的形式具有服从于某种规则的内在结构。在语言学中,研究词的内部结构及其构成方式的学科被称为形态学(Morphology),又称构词学。词是由一个或多个语素构成的,语素主要分为两类:词根和词缀。词根(Lemma)也被称为原形或字典形,是指能在字典中查到的语素,通常是一个词最主要的语素。词缀(Affix)是附着在原形上的其他语素,帮助在原形的基础上衍生出新词,其包含前缀、中缀、后缀等。

例如:在英语单词unhappy中,happy为原形,un-为前缀。

在邦托克语单词fumikas(强壮的)中,fikas(强壮)为原形,-um-为中缀。

在俄语单词barabanshchik(鼓手)中,baraban(鼓)为原形,-shchik为后缀。

Morphology本身就是由两个语素构成的,即morph+ology,后缀-ology表示“关于······的科学”。一个词也可以包含多个词缀,例如,unhappiness包含前缀“un-”和后缀“-ness”。同样,一个词也可以包含多个词根,例如,homework包含词根“home”和“work”。

有些语言的词通常只包含一个或者两个语素,而有些语言的词则包含十个以上的语素。例如,汉语中每个词的语素都很少,也不会根据性、数、格、人称等发生形态变化。但是对于英语单词dog,在末尾添加s可以将它从单数名词变成复数名词dogs。对于德语单词bäcker,在末尾添加in可以将它从阳性词(男面包师)变为阴性词bäckerin(女面包师)。不同语言的词形变化差别非常大,以英语为例,很多英语单词都包含两个或两个以上的语素,其词形变化如表2.1所示。

表2.1 英语中常见的词形变化

通过语素组成词也可以反映语言的一个重要特性——创造性。我们可以理解从未见过的词,也可以通过新颖的方法将语素结合起来创造新词。如果能够自动将词分解为语素,则可以更好地对词进行进一步的分析。