实用信息检索方法与利用(第三版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3 信息检索

1.3.1 信息检索原理及步骤

信息检索的基本原理见图1-1,其含义是:通过对大量的、分散无序的文献信息进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。其中存储是为了检索,而检索又必须先进行存储。

图1-1 信息检索原理图

信息检索通常是指从以任何方式组成的信息集合中,查找特定用户在特定时间和条件下所需信息的方法与过程。完整的信息检索含义还包括信息的存储与信息的分析评价。文献的存储过程实际上是对文献进行替代和整序的过程,文献的查寻过程则是将文献特征标识和检索提问标识进行匹配的过程。信息的分析评价是检索策略进行调整的过程。

根据信息检索的原理可以知道,检索是存储的逆过程。检索者遵循信息的存储规律,就能够快速准确地查找到所需要的信息资源。信息检索的基本步骤见图1-2。

图1-2 信息检索流程图

(1)检索课题的分析

分析课题的步骤是:先将问题归类,弄清楚课题的性质是什么、学科专业范围是什么、分析出哪些是已知信息、哪些是想查询的信息,在此基础上分析出需求的主题内容,确定文献类型和时间范围。

由于检索工具都是针对一定的问题而设计的,因此,将问题分类有助于确定相应的检索工具。所有问题可以分成两大类,一类是要查找某一特定的文献,或与某一主题、学科内容相关的文献,这就要考虑文献检索类工具书。例如,找图书,要用书目、馆藏目录以及访问电子书刊网站、电子图书馆、网上图书销售中心等。另一类是要查找具体的事实,如统计数据、人名、地址、机构概况、术语等,这就要考虑专为解决这些类型的问题而设计的工具书,如机构名录、手册、百科全书以及包括这类检索工具的参考工具类网站。当然,问题的类型没有严格的界限,而且是可以互相转化的,事实类的问题可以通过查找文献来解决,而对文献的要求经过进一步分析后,也可以用三次文献中的某一工具书来解决。

(2)检索工具的选择

根据检索课题的要求,选择最能满足检索要求的检索工具书或数据库。检索工具的种类繁多,其文献类型、学科和专业的收录范围各有侧重,所以,根据课题的检索要求,选准、选全检索工具十分重要。这是决定检索效果的关键因素。应当了解相关学科各种主要的信息资源、数据库资源。首先要对各种检索工具收录文献的学科范围、地区范围、语种范围、时间范围和文献类型有清楚的了解。其次,要了解工具书之间的相互关系,包括内容和时间的联系,有的放矢地进行查找。然后从文献的类型、文种、出版时间等方面来考虑选用哪种检索工具最合适。除了考虑以上因素外,还需考虑有关文献在本地区的收藏情况、检索工具的索引是否适合本课题检索的要求等。

(3)确定检索词

一种可能包含着所需信息的检索工具确定以后,下一步应考虑怎样从中找到所需信息。检索途径往往不止一种,使用者应根据已知信息特征确定检索入口。一般来说,所有文献的特征可分两大类:外表特征(题名、著者、序号等)和内容特征(分类、主题、关键词)。所以文献检索的入口途径也分成两个方面。

分析概念是对课题进行主题概念分析,并用一定的概念词来表达这些主题内容,同时明确概念与概念之间的逻辑关系。概念的表达要确切,找出核心概念,找出隐含的重要概念,明确概念层次之间的关系。一个检索课题往往涉及多个概念,选择检索词时首先要将检索课题涉及的所有概念分离出来,并针对每一个概念选择尽可能多的检索词。如“吸烟与心脏病的关系”,可表达为“connection between smoking and heart disease”。通过分析发现,其中,只有smoking和heart disease两个概念词,而“connection between”则不属于概念词。提取隐含概念:有些课题的实质性内容往往很难从课题名称上反映出来,需要从中提取隐含的重要概念。

选定检索词的方法:利用上下位词或特有名词、同义词、近义词及相关词,查阅工具如专业词表、词典、字典、分类表等。根据词表或数据库中的索引选词;从专业词典、百科全书等参考工具中选词;选词原则要考虑满足两个要求:一是课题检索要求;二是数据库输入词要求,选择规范词、尽量使用代码、注意选用国内外惯用的技术术语、避免使用低频词或高频词、同义词尽量选全。

(4)编制检索式

检索式是搜索过程中用来表达搜索提问的一种逻辑运算式,又称检索表达式或检索提问式,是用来表达用户检索提问的。它是由基于检索概念产生的检索词和各种组配算符构成,是搜索策略的具体体现,检索式的好坏决定着检索质量。检索式的编写应注意尽量将核心的检索词放在最前面,并限制在基本字段内,这样可以提高计算机处理效率。应该正确使用布尔逻辑算符、位置算符。同义词、近义词之间使用“或”(or)连接,优先运算部分使用“( )”,英文检索时正确使用截词符“?”或通配符“*”等。检索式的构建应该尽量简单,不要烦琐复杂。

检索式完成后可以将其输入检索系统实施检索。计算机完成检索过程后会将检索结果显示出来,如果检索结果与需求不符合,可以及时调整检索策略,直至得到满意的检索结果。

(5)显示及判断检索结果

用户向检索系统提交检索式后,检索结果是否满意,可以通过查全率(Recall Factor)、查准率(Pertinency Factor)、误检率(Noise Factor)和漏检率(Omission Factor)进行判断评价。

查全率也称回调率,是衡量某一检索系统从文献集合中检出相关文献成功度的一项指标,即检出的相关文献总数占全部相关文献总数的百分比。

查准率是衡量某一检索系统信号噪声比的一种指标,即检出的相关文献总数占检出的全部文献总数的百分比。

漏检率,即漏检概率。信息检索中与查全率相对应的概念,指未检出的相关文献量与文献库中该种相关文献总量之比。

误检率是和查准率相对应的概念。是查出结果中不相关的信息占检出文献总数目的百分比。

一个高质量的信息检索,是在确保查全率的同时谋求较高的查准率。在实施检索任务前要在两者之间充分考虑,同时也应该了解数据库的规模和特点,对专业性较高、数据量较小的数据库,应该努力提高查全率。反之,对于数据量较大的检索系统,如网络搜索引擎,则尽量满足查准率的要求。

提高查全率的一般做法是采用分类法或规范化的检索词;在检索式中减少使用逻辑“与”、逻辑“非”运算符;增加同义词检索,使用逻辑“或”运算符,多用截词符或通配符,减少字段限制等。

提高查准率一般通过提高检索词的精确度;使用逻辑“非”减少不需要出现的词;多使用逻辑“与”,减少逻辑“或”运算符,使用位置算符限制性检索词的位置以及利用文献外部特征进行检索限制等。

(6)获取原始文献

从检索工具上获得所需文献线索后,下一步就是利用图书馆和信息单位的馆藏书刊目录或报刊目录获取原文。获取文献遵循省力原则或最短路径原则,如果本地电子文献数据库里面有电子信息资源,则最优先获取。如果没有本地电子文献资源,则通过馆藏目录或联合馆藏目录查找文献的索取号和藏址,获取原文时只要履行借阅手续或馆际互借手续即可。从另一方面来讲,获取原文并非易事,特别是外文文献。原文获取率的高低同馆藏有关,但也与获取方法有关。在开始这一工作前,要注意掌握获取原文的必要信息:要正确地找出获取原文所必需的著者姓名、题名、出版时间及详尽的出处,首先应该弄清楚各种检索刊物的著录格式,如刊名、文献类型、论文著者的地址等。要获取会议论文、学位论文、公司报告以及一些尚未公开发表的文章的原文,必须获得论文著者(包括团体著者)的详细地址。有的检索刊物的款目中附有著者的工作单位,可以据此查阅机构指南。

(7)文献阅读和分析评价

检索结果的阅读和分析评价是一个完整检索过程的重要步骤。通过这一步骤既可以总结得失、修正检索策略、改进检索效果,又为所获信息的实际应用打下基础。

1.3.2 计算机信息检索技术

计算机信息检索是指利用计算机代替人工完成信息检索的过程。具体来说,就是指人们在计算机或计算机检索网络的终端机上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检索出所需的信息,继而再由终端设备显示或打印的过程。为实现计算机信息检索,必须事先将大量的原始信息加工处理,以数据库的形式存储在计算机中,所以计算机信息检索广义上讲包括信息的存储和检索两个方面。现代计算机技术在信息检索领域的普及,使得检索的效率极大提高。网络、多媒体技术的应用,一方面是基于传统的检索技术发展而来;另一方面,又产生了一些全新的检索技术。主要有布尔逻辑检索技术和截词检索技术。

(1)布尔逻辑检索

布尔逻辑检索是指通过标准的布尔逻辑关系算符来表达检索词与检索词间逻辑关系的检索方法。如图1-3所示。

图1-3 布尔逻辑运算的文氏图

① 布尔逻辑关系词。主要的布尔逻辑关系词有逻辑“与”(and)、逻辑“或”(or)、逻辑“非”(not)。逻辑“与”,又称逻辑乘,用“and”或“*”表示。

组配方式:A*B或者A and B。表示两个概念的交叉和限定关系,只有同时含有这两个概念的记录才算命中信息。

作用:增加限制条件,即增加检索的专指性,以缩小提问范围,减少文献输出量,提高查准率。

检索时,“逻辑与”组配越多,检索命中文献的结果就越少。

检索举例:你想在题名中检索有关“南京工业大学”的文献。以中国期刊全文数据库统计数据为例,2017年8月6日检索1999年至2017年期间发表的期刊论文,检索项为“作者单位”,检索词分别为“南京”“工业”“南京”并且“工业”以及“南京”并且“工业”和“大学”,检索结果如下:

检索式(关键词) 命中文献篇数

南京 895924篇

工业 969691篇

南京and工业 35166篇

南京and工业and大学 30334篇

逻辑或,又称逻辑和,用“or”或“+”表示。

组配方式:A or B或A+B,表示检索含有A词,或含有B词,或同时包含A、B两词的文章。两者是并列关系。

作用:放宽提问范围,增加检索结果,起扩检作用,提高查全率。

逻辑“或”用得越多,检中的文献会越来越多。使用逻辑或可连接同一检索式的多个同义词、近义词和相关词。

逻辑“非”,又称逻辑差,用“not”或“-”表示。

组配方式:A-B,表示检索出含有A词而不含有B词的文章。

作用:逻辑“非”用于排除不希望出现的检索词,它和“*”的作用相似,能够缩小命中文献范围,增强检索的准确性。

常用于在主题概念去除某段年份、某个语种或某种类型(会议、期刊)的文献等。

检索举例:检索品牌不是熊猫牌的电视机。

检索式(关键词):电视机not熊猫牌或电视机—熊猫牌。

② 布尔逻辑运算符优先级。

有括号时:括号内的先执行。

无括号时:not>and>or。

注:在检索式中只有and、or前后的检索标识可以交换;检索式中有not时前后检索词不能交换。

例:检索“唐宋诗词”的有关信息。

关键词:唐、宋、诗词;

检索表达式:

(唐or宋)and诗词;

唐and诗词or宋and诗词;

错误表达式:

唐or宋and诗词;

唐and宋and诗词;

唐or宋or诗词;

唐and宋or诗词;

注意:在不同的数据库中,所使用的逻辑符号可能是不同的,有的用“and、or、not”,有的用“*、+、-”。也有一些检索工具会完全省略任何符号和关系,直接把布尔逻辑关系隐含在菜单中。

如布尔逻辑运算符在百度、Google搜索引擎中的应用:

高级检索提供逻辑与、逻辑或、逻辑非检索。

初级检索不支持“and”符号、“*”符号和“or”符号。

多个关键词之间必须留一个空格,系统默认为逻辑“与”检索,“空格”即代表and;逻辑或用“|”来表示。

支持“-”功能,用于有目的地删除某些无关的网页,但减号之前必须留一空格。

(2)位置算符

位置检索也叫全文检索、邻近检索。所谓全文检索,就是利用记录中的自然语言进行检索,词与词之间的逻辑关系用位置算符组配,对检索词之间的相对位置进行限制。这是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法。不同的检索系统其位置算符的表示方法不尽相同,如美国DIALOG检索系统的位置算符的用法意义如下。

①(W)—With:(W)表示该算符两侧的检索词相邻,且两者之间允许只有一个空格或标点符号,不允许有任何字母或词,顺序不能颠倒。(W)也可以简写为()。

例如:Aircraft()design可检索出含有Aircraft design的文献记录。Computer()aided()design可检索出含有Computer aided design的文献记录。

②(nW)—nWords:(nW)表示在该算符两侧的检索词之间最多允许间隔n个词(实词或虚词),且两者的相对位置不能颠倒。

例如:laser(1w)printer可检出含有laser printer和laser color printer的文献记录。

③(N)—Near:(N)表示该算符两侧的检索词相邻,但两者的相对位置可以颠倒。

④(nN)—nNear:(nN)表示该算符两侧的检索词之间允许间隔最多n个词,且两者的顺序可以颠倒。

⑤(S)—Subfield:(S)表示该算符两侧的检索词必须是在文献记录的同一子字段中,而不限定它们在该子字段中的相对次序和相对位置的距离。在文摘字段中,一个句子就是一个子字段。

⑥(F)—Field:(F)表示该算符两侧的检索词必须是在文献记录的同一字段中,而它们在该字段中的相对次序和相对位置的距离不限。

(3)截词检索

截词检索就是用截断词的一个局部进行的检索,凡满足这个词局部中的所有字符(串)的文献,都为命中文献。主要应用于西文数字资源的检索,由于西文单词由字母组成,许多单词具有相同的词干,因此,截词检索是一种常用的检索方法。其作用主要是提高查全率。

常用的截词符:“?”“*”。

截词位置:按截词位置可分为前截词、后截词、前后截词和中间截词;按截断字符数的不同,可分为有限截断和无限截断。

后截断:又称右截断,是将截词符放在一个字符串的右方,满足截词左方所有字符的记录都为命中记录。这是一种前方一致检索,如:comput*将检索出computer、computing、computerised、computerized、computerization等结果。

例如:年代检索,如:“199?”(90年代)。

同词根检索:如:“socio*”,可以检索出“sociobiology”“socioecology”等检索词的文献。

中间截词:又称前后方一致。允许检索词中间有若干变化。例如wom*n,检索到woman、women的结果。

英美的不同拼法,defen*e可同时检出defence和defense的结果。

左截词:又称前截词、后方一致,允许检索词前有若干变化,例如*physics就可检索到physics、astrophysics、biophysics、chemophysics、geophysics等词的结果。

前后截词:词干的前、后各有一个截词符,允许检索词的前端和尾部各有若干变化形式。如?computer?可检索computer、computers、computerize、computerized、computerization、minicomputer、minicomputers、microcomputer、microcomputers等结果。

有限截词:即截几个字符就加几个“?”。如:“computer?”,表示可以有0~1个字母的变化,系统即检出带有“computer”和“computers”的文献。

输入“stud???”表示截3个字母,可检索出带有“study”“studies”“studing”等的文献。

无限截词:即允许截去无限个字符,如输入“comput*”,则可以检出含有“computers”“computing”“computered”等的文献。

请注意:在不同的数据库和联机检索系统中,所使用的截词符号没有统一的标准,有的用“?”,有的用“*”,有的用“#”。

即便常用的“?”和“*”,在不同的数据库中其用法也是不一定相同的。

在允许截词的检索工具中,一般是指右截词,部分支持中间截词,左截词比较少见。