1.3.3 新词语在切分中的作用
我们将抽取到的新词语加入到原来的8万词表中,形成了一个含259400个词条的大词语表(下称“26万词语表”)。与通常词表(如8万词表)的切分结果不同,基于大词语表的最大切分表现出如下一些特点:
(1)粒度较粗,词语的平均长度为3.19(含单字、二字词、字母数字词、多字词)。
(2)切词底表的词语多为关键词,专指性强、结构完整、语义单一,保证了词语内部的准确性;在本身准确性的前提下,词语词长较长,减少了切分点。这些避免了一些常用底表的切分错误。
(3)由于词语表中的新词语多为命名实体,因此,基本上能将起到文本表示作用的特征词语切出来,8万词表切分时的未登录词也基本上可以解决,这在科技、经济类文档中体现得更明显。那些切不出来的专名也是偶尔出现的,如社会新闻中偶尔出现的人名,一般不具有特征表示的意义。
下面我们以专名最多的科技文档为例进行说明,进行对比的其他切分系统共4个(软件于2004年年底于网络下载,可能并非最新版或最强版),切分结果如下(有下划线的为推荐切分,斜体的为可接受切分,字符底纹和波浪下划线的为错误切分):
原文1:
从刚刚公布完的封闭式基金\年报看,封闭式基金得到了包括保险公司和QFII在内的机构投资者的热烈追捧。而通过近日基金管理公司内部调整的行为,分析人士推测,基金公司可能已经开始着手备战“封转开”。以华安基金旗下基金安顺为例,人寿股份持有2.64亿基金份额,加上人寿集团0.55亿总计为3.19亿,而在2003年6月的中报中,中国人寿(年报中分为人寿股份和人寿集团)的持有份额仅为2.1亿基金份额。其他如中国太保也有两千多万的份额增加。
北京大学分词结果:
从 刚刚 公布 完 的 封闭式 基金 年报 看 , 封闭式 基金 得到 了 包括 保险 公司和 QFII 在内 的机构 投资者 的 热烈 追 捧 。 而 通过 近日 基金 管理 公司 内部 调整 的 行为 , 分析 人士 推测 , 基金 公司 可能 已经 开始 着手 备战 “封转开” 。 以 华安 基金 旗 下 基金 安顺 为 例 , 人寿 股份持有 2.64 亿 基金 份额 , 加上人寿集团0.55 亿 总计 为 3.19 亿 , 而 在 2003年 6月 的中 报 中 , 中国 人寿 ( 年报 中 分为 人 寿 股份 和 人寿 集团 ) 的 持有 份额 仅 为 2.1 亿 基金 份额 , 其他 如 中国 太保 也 有 两 千 多 万 的 份额 增加 。
东北大学分词结果:
从/刚刚/公布/完/的/封闭式/基金/年报/看/,/封闭式/基金/得到/了/包括/保险公司/和/QFII/在内/的/机构/投资者/的/热烈/追/捧/。/而/通过/近日/基金/管理/公司/内部/调整/的/行为/,/分析/人士/推测/,/基金/公司/可能/已经/开始/着手/备战/“/封/转/开/”/。/以/华安/基金/旗/下/基金/安顺/为/例/,/人寿/股份/持有/2.64/亿/基金/份额/,/加上/人寿/集团/0.55/亿/总计/为/3.19/亿/,/而/在/2003年6月/的/中/报/中/,/中国/人寿/(/年报/中/分为/人寿/股份/和/人寿/集团/)/的/持有/份额/仅/为/2.1/亿/基金/份额/。/其他/如/中国/太/保/也有/两千/多/万/的/份额/增加/。/
中科院分词结果:
从/p 刚刚/d 公布/v 完/v 的/u 封闭式/n 基金/n 年报/n 看/v ,/w 封闭式/n 基金/n 得到/v 了/u 包括/v 保险/n 公司/n 和/c QFII/nx 在内/u 的/u 机构/n 投资者/n 的/u 热烈/ad 追/v 捧/v 。/w 而/c 通过/p 近日/t 基金/n 管理/vn 公司/n 内部/f 调整/v 的/u 行为/n ,/w 分析/vn 人士/n 推测/v ,/w 基金/n 公司/n 可能/v 已经/d 开始/v 着手/v 备战/v “/w 封/q 转/v 开/v ”/w 。/w 以/p 华/j 安/j 基金/n 旗/n 下/f 基金/n 安顺/ns 为/p 例/n ,/w 人寿/n 股份/n 持有/v 2.64亿/m 基金/n 份额/n ,/w 加上/v 人寿/n 集团/n 0.55亿/m 总计/v 为/p 3.19亿/m ,/w 而/c 在/p 2003年/t 6月/t 的/u 中/j 报/n 中/f ,/w 中国/ns 人寿/n(/w 年报/n 中/f 分为/v 人寿/n 股份/n 和/c 人寿/n 集团/n)/w 的/u 持有/vn 份额/n 仅/d 为/v 2.1亿/m 基金/n 份额/n 。/w 其他/r 如/v 中国/ns 太/d 保/v 也/d 有/v 两千/m 多/m 万/m 的/u 份额/n 增加/v 。/w
我们分词结果:
从/ 刚刚/ 公布/ 完/ 的/ 封闭式基金/年报/ 看/,/ 封闭式基金/ 得/ 到了/ 包括/ 保险公司/ 和/ QFII/ 在内/ 的/ 机构投资者/ 的/ 热烈/ 追捧/ 。/ 而/ 通过/ 近日/ 基金管理公司/ 内部/ 调整/ 的/ 行为/,/ 分析/ 人士/ 推测/,/ 基金公司/ 可能/ 已经/ 开始/ 着手/ 备战/ “/ 封转开/ ”/ 。/ 以/ 华安基金/ 旗下/ 基金安顺/ 为例/,/ 人寿股份/ 持有/ 2.64/ 亿/ 基金/ 份额/,/ 加上/ 人寿集团/ 0.55/ 亿/ 总/ 计为/ 3.19/ 亿/,/ 而/ 在/ 2003/年/ 6/ 月/ 的/ 中报/ 中/,/ 中国人寿/(/ 年报/ 中/ 分为/ 人寿股份/ 和/ 人寿集团/)/ 的/ 持有/ 份额/ 仅为/ 2.1/ 亿/ 基金/ 份额/ 。/ 其他/ 如/ 中国太保/ 也/ 有/ 两千多万/ 的/ 份额/ 增加/ 。/
原文2:
PC巨头戴尔刚宣布进军家电市场不久,手机巨头摩托罗拉也尾随其后染指家电。据《北京晨报》报道,摩托罗拉与唯冠集团在深圳联合宣布,他们联合推出的摩托罗拉\资讯家电将在深圳高交会上首次亮相。据称,“摩托罗拉”牌家电将以数字电视为重点,以厨卫电视、楼宇可视对讲机、车载影音等为主轴,年底将推出液晶显示器、液晶电视、等离子电视和DVD、数码录放像机、车载产品等家电新品。众多巨头纷纷“入伍”家电市场,家电业能迎来发展的“第二春”吗?
北京大学分词结果:
PC 巨头 戴 尔刚 宣布 进军 家电 市场 不久 , 手机 巨头 摩托罗拉 也 尾随 其后 染指 家电 。 据《 北京 晨报 》 报道 , 摩托罗拉 与 唯 冠 集团 在 深圳 联合 宣布 , 他们 联合 推出 的 摩托罗拉 资讯 家电 将 在 深圳 高 交 会 上首 次 亮相 。 据称 , “ 摩托罗拉 ” 牌 家电 将 以 数字 电 视为 重点 , 以 厨 卫 电视 、 楼宇 可 视 对讲机 、 车载 影 音 等 为 主轴 ,年底 将 推出 液晶 显示器 、 液晶 电视 、 等离子 电视 和 DVD 、 数码 录 放像机 、 车载 产品 等 家电 新品 。 众多 巨头 纷纷 “ 入伍 ” 家电 市场 , 家电 业 能 迎来 发展 的“ 第二 春 ” 吗?
东北大学分词结果:
PC/巨头/戴尔刚/宣布/进军/家电/市场/不久/,/手机/巨头/摩托罗拉/也/尾随/其后/染指/家电/。/据/《/北京/晨/报/》/报道/,/摩托罗拉/与/唯/冠/集团/在/深圳/联合/宣布/,/他们/联合/推出/的/摩托罗拉/资讯/家电/将/在/深圳/高/交会/上/首次/亮相/。/据称/,/“/摩托罗拉/”/牌/家电/将/以/数字/电/视为/重点/,/以/厨/卫/电视/、/楼宇/可/视/对讲机/、/车/载/影音/等/为主/轴/,/年底/将/推出/液晶/显示器/、/液晶/电视/、/等离子/电视/和/DVD/、/数码/录放像机/、/车/载/产品/等/家电/新品/。/众多/巨头/纷纷/“/入伍/”/家电/市场/,/家电/业/能/迎来/发展/的/“/第二/春/”/吗/?/
中科院分词结果:
PC/nx 巨头/n 戴/nr 尔刚/nr 宣布/v 进军/v 家电/j 市场/n 不久/m ,/w 手机/n 巨头/n 摩托/n 罗/j 拉/v 也/d 尾随/v 其后/t 染指/v 家电/j 。/w 据/p 《/w 北京/ns 晨报/n 》/w 报道/v,/w 摩托/n 罗/j 拉/v 与/c 唯/d 冠/v 集团/n 在/p 深圳/ns 联合/v 宣布/v ,/w 他们/r 联合/v 推出/v 的/u 摩托/n 罗/j 拉/v资讯/n 家电/j 将/d 在/p 深圳/ns 高/ad 交/v 会上/t 首次/d 亮相/v 。/w 据称/v,/w “/w 摩托/n 罗/j 拉/v”/w 牌/n 家电/j 将/d 以/p 数字/n 电视/n 为/p 重点/n,/w 以/p 厨/n 卫/nr 电视/n 、/w 楼宇/n 可/v 视/vg 对讲机/n 、/w 车载/b 影音/n 等/u 为/v 主轴/n ,/w 年底/t 将/d 推出/v 液晶/n 显示器/n 、/w 液晶/n 电视/n 、/w 等离子/n 电视/n 和/c DVD/nx 、/w 数码/b 录放/vn 像/v 机/ng 、/w 车载/b 产品/n 等/u 家电/j 新品/n 。/w 众多/m 巨头/n 纷纷/z “/w 入伍/v ”/w 家电/j 市场/n,/w 家/q 电业/n 能/v 迎来/v 发展/v 的/u “/w 第二/m 春/tg ”/w 吗/y ?/w
我们分词结果:
PC/ 巨头/ 戴尔/ 刚/ 宣布/ 进军/ 家电市场/ 不久/,/ 手机/ 巨头/ 摩托罗拉/ 也/ 尾随/ 其后/ 染指/ 家电/ 。/ 据/ 《/ 北京晨报/ 》/ 报道/,/ 摩托罗拉/ 与/ 唯冠/ 集团/ 在/ 深圳/ 联合/ 宣布/,/ 他们/ 联合/ 推出/ 的/ 摩托罗拉/ 资讯家电/ 将/ 在/ 深圳/ 高交会/ 上/ 首次/ 亮相/ 。/ 据称/,/ “/ 摩托罗拉/”/ 牌/ 家电/ 将以/ 数字电视/ 为/ 重点/,/ 以/ 厨卫电视/ 、/ 楼宇/ 可视/ 对讲机/ 、/ 车载影音/ 等/ 为/ 主轴/,/年底/ 将/ 推出/ 液晶显示器/ 、/ 液晶电视/、/ 等离子电视/ 和/ DVD/ 、/ 数码/ 录/ 放像机/ 、/ 车载产品/ 等/ 家电/ 新品/ 。/ 众多/ 巨头/ 纷纷/ “/ 入伍/ ”/ 家电市场/,/ 家电业/ 能/ 迎来/ 发展/ 的/ “/ 第二春/ ”/ 吗/ ?/
从原文2的切分对比来看,我们的切分系统基本上能将命名实体切分出来,在29个命名实体中(不含时间词),只切错了两个:“唯冠集团、数码录放像机”,而且避免了其他系统出现的类似“戴尔刚、家/电业、高/交/会上、数字/电/视为”这样的歧义错误。而“戴尔刚、家/电业、高/交/会上、数字/电/视为”这样的切分错误由于包含特征词,会影响文本表示、文本分类、主题词标引等后续处理,其他的专名切分错误如“高/交/会”也是如此。而“北京/晨报、唯冠/集团、资讯/家电、数字/电视、厨卫/电视、楼宇/可视/对讲机、车载/影音、液晶/显示器、液晶/电视、等离子/电视、家电/市场、家电/业”在一般应用目的下,并不完全算切错,但对于信息处理中的文本表示研究而言,我们认为是错的,因为不利于文本表示。
需要特别说明的是,这只是个别例子上的对比,无法统计准确率和召回率,无法与其他切分系统进行数据上的对比,更不能由此而得出系统之间孰优孰劣的结论。以后可以参加“863”智能技术与接口评测项目中命名实体识别的评测,进行全面科学的测试。