1.1 新词语识别和聚类综述
新词语的识别和领域聚类是自然语言处理、信息检索、信息提取中的一项基础研究。新词语不仅可以丰富人类语言知识,帮助解决一些歧义切分的问题,而且,新词语常常能表达更为精确完整的概念,能提高向量空间模型的文本表达能力和文本分类的效果。
新词语识别不外乎基于统计的和基于规则的两种方法。统计方法主要基于符号(如字、n串)的内部结合紧密度及其对上下文环境的依赖程度实现。几乎各种算法都已应用过,常见的如隐马尔可夫模型(Bikel et al,1997)、最大熵(Borthwik,1998)、支持向量机(Asahara,2003)、条件随机场(周俊生)、互信息和熵(罗盛芬,2003)等。典型的新词语识别系统,如崔世起等人针对二元新词、三元新词、四元新词等的常见模式,利用多个词典和词性过滤规则、独立词概率等技术对新词进行检测;Li等人利用SVM对NW11(单字符+单字符)型和NW21(双字符+单字符)型的新词进行识别;邹纲等人提出一种以某时间点为界建立背景和前景词串集合,采用评价函数检测Internet中的新词的方法;李钝等人利用单字之间的同现词频信息以及它们出现的时间规律确定候选新词字串,利用候选字串中各字符相邻、有序、频繁出现的特点,提出采用改进的关联规则挖掘算法进行新词的识别,解决了“长词中包含短词”的问题,提高了新词识别的准确率。
基于规则方法的基础是模板特征库和已标注上下文搭配特征的训练库,如专名或术语的前后指界信息、词语构造规则(如知网中文信息结构库)等。使用基于规则的方法,新词识别的准确率比较高,但是人工提取规则耗费人力,而且需要不断地更新识别规则。而使用统计方法,经常会得到很多垃圾串,而且对“长词中含有短词”的现象,如“苏丹”与“苏丹红”的识别比较困难。
基于统计的方法可移植性强,但难以解决数据稀疏问题,缺乏语言学验证。基于规则的方法则由于语言的灵活性而难以穷尽,并且最大缺点在于资源建设代价高、可移植性差。目前的趋势是二者逐渐融合。以机器学习方法为工具,大规模自动获取新词语,在此基础上,通过规则的过滤控制质量;或者通过机器学习方法获取规则,再施以统计或规则方法。这吸收了统计方法的自动快速和规则方法的可解释性和高质量的优点(金翔字,2002;聂颂,2003;庄明,2004;苏菲,2004;贾自艳,2004;隋岩,2004;杨尔弘,2005)。
目前,国外有MUC(message understanding conference)和ACE(automatic content extraction)进行实体识别的评测。
在汉语中,由于缺乏形态标记,又与分词任务相互影响,新词语识别难度更大。总的来说,新词语识别仍存在如下几个问题:
(1)长度限制。由于性能的限制,大部分研究集中在2字至4字的n串识别上。
(2)领域依赖。新词语识别和领域判定相依赖,领域知识获取代价高,这在基于规则的方法方面更是如此。
(3)准确率有待提高。以2004年度“863”计划中文信息处理与智能人机交互技术评测中的命名实体评测结果为例,F1值约为75%。如何滤除共现频度高的非词语常用搭配(如“这一”、“是吗”等);对常用词的识别精确度较差,召回率更是没法计算。
(4)识别效率较低。作为其他应用的基础,底层消耗过大,特别是某些算法,如SVM。
领域知识获取是基于内容的文本处理中的基础关键技术。目前,很多著名的知识库主要依靠专家手工构建,如WordNet、HowNet,也有许多运用自动方法来获取领域词语。基于规则的方法主要利用人工构建好的模板以匹配的方式在大规模分类语料中获取领域词语;基于统计的方法则主要利用机器学习的方法进行领域词语聚类,如基于Bootstrapping、互信息、TFIDF等的领域词语自动获取。与新词识别类似,也存在领域依赖、准确率低、召回率没法计算、识别效率低等缺点。