2.3.5 关键词语言
关键词是指在文献的标题、摘要或正文中出现,对表达文献主题内容具有实质意义、能作为检索入口的、具有关键性描述作用的词汇。关键词既可以是叙词,也可以是非叙词。很多关键词没有被收进任何叙词表,为非叙词。用词的自由性是关键词与叙词等人工语言词语的最大区别之处。关键词抽取的这种自由性大大方便了标引工作,提高了标引速度,降低了标引成本,特别适宜于海量化文献网络环境中的信息处理,因而是当前互联网最主要的检索语言。现代科学技术的飞速发展,也给文献信息工作者带来了巨大的挑战:首先是文献信息数量剧增;其次是文献类型多样化;再次是文献信息跨学科、交叉和渗透现象日益普遍;最后是新学科、新概念、新名词、新技术、新产品日新月异。面对这些新情况,人工语言即使采用多种控制手段,也难以及时、准确、直接、快速反映出具体的专指概念和组合概念。我们以《汉语主题词表》为例,它未能及时地将“因特网”、“黑客”、“知识经济”、“数字图书馆”、“经济合同法”、“克隆技术”、“千年虫”等数以千计的新名词收入词表中。再以美国《国会主题词表》为例,尽管它一版再版,无论如何也赶不上时代发展对文献信息处理的需要。而我国的《汉语主题词表》由于修订周期的滞后,更是远远地落在了时代的后面。叙词标引要求标引人员具备一定的专业学科知识与熟练的标引技能,以确保对文献主题的准确理解与标引的一致性。但鉴于叙词标引的复杂性,标引的速度往往较慢,在文献信息海量化的网络时代,叙词语言难以适应海量文献信息的处理要求。目前互联网多数网站采用关键词语言。尤其是近些年开发的自动标引和抽词技术,使得计算机自动处理文献信息的优势远远超出人工信息处理的速度和能力。对于网络用户来说,利用关键词语言比人工语言方便,关键词语言易掌握,但检索的准确性较差。关键词语言检索到的内容非常庞大,用户只需使用其30%就足以了解最新信息,由此自然语言的天然优势在计算机检索时能够得以充分发挥。
关键词的特性。作为一种自然语言,关键词存在着名义性、同义性、模糊性、词量大、较专指等特性,特别是同义词与近义词、上位词与下位词、全拼词与缩略词均可能同时被标引,加上一直不编制关键词表,因而缺乏必要的词间联系,普遍造成检索效果欠佳,又难以扩检和缩检。因此,关键词的标引必须扬长避短,并适当加以控制,才能在网络时代中发挥其重要作用。关键词有优点,也有缺点,作为一种情报检索语言,关键词语言虽然属非控语言,但适当的控制还是必要的。正如有的专家指出:不管今后计算机技术和自然语言系统如何发展,情报检索的基本原理——对词汇的控制,是永远不会取消的,变化的只是词汇控制的方式、方法和手段。
未加任何词语控制的关键词检索系统只能是低水平的。一般说,词汇控制的内容很多,包括词量、词类、词形、词义、词间关系、专指度等方面,关键词语言控制具有其特点。
(1)关键词可以为单字、单词或复合词,一般应采用名词,不用动词、形容词等词类,如“决策性”一词为形容词,用来作为关键词标引就不妥。
(2)关键词应力求词义明确,尽量避免产生歧义。如“藏”、“阅”的词义不够明确,应标引为“收藏”、“阅览”。又如“考证”一词,本身既有历史研究上的“考证”,也有通过考试获取某种资格证书的“考证”,是个两义词,后者应明确为“资格证书考试”。
(3)关键词力求专指。既要避免用上位关键词标引,如“注释”一词,其下包括“类目注释”和“叙词注释”等词,显然不能只标引为“注释”;也要防止用交叉组配的办法,把一个专指词分解为两个词来标引,如不要用“期刊外借”和“外借工作”来标引“期刊外借工作”,不能要求用户都用交叉组配来检索。
(4)专有名词应直接标引。一是通过加标识的办法,如对题名加题名号,以与通用词语区别开来,以免造成关键词的同名异义。如“情报科学”一词,包括了《情报科学》刊名与情报科学学科名。二是禁止切分,如“中国标准书号”,不能改用“中国”和“标准书号”两个词来标引。
(5)外文缩略词和中文简称的标引应避免多义性。外文缩略词往往是一词多义,所以应在缩略词后用括号注该词的中译名。中文简称,除已约定俗成者外,应尽量不用,这样才能使标引与检索需求相匹配。
(6)关键词字段不宜规定长度,若规定关键词的最长限度为7个字,则会导致大量的关键词词不达意,或削足适履。若将“联合国教科文组织”标引为“联合国”及“教科文组织”,这样会提高检索难度,多耗机时。