上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
第2章 词汇分析
词汇是语言知识中的重要环节。在语言学中,词(Word)是形式和意义相结合的单位[43],也是语言中能够独立运用的最小单位。掌握一个词,意味着知道其读音和语义。在书面语中,正字法(Orthography)也是词形式的一种表达。例如,英文单词“cat”具有的语义是“猫”,读音为“/kæt/”。由于词是语言运用的基本单位,在自然语言处理算法中,词通常也是基本单元。因此,对词的处理也是自然语言处理中重要的底层任务,是句法分析、文本分类、语言模型等任务的基础。
本章首先介绍语言学中与词相关的基本概念,然后在此基础上介绍词语规范化相关算法、中文分词算法和词性标注算法。