项目2 信息检索技术及其应用
学习重点
1.了解常用的网络检索技术和检索方法;
2.掌握高级检索中的布尔逻辑检索技术和检索方法。
学习要求
通常习惯利用搜索引擎进行简单检索,忽略了高级检索的功能,本项目要求学会通过高级检索提高查准率。
自主操作检索实例,理解高级搜索的表达方式,回答教师的随堂提问;在理解的基础上完成检索任务,教师随时抽查,并且把任务执行过程、表达式的构建以及结果的显示加以说明。基本格式如下:
检索题目: 表达式为: 检索结果: 检索结论:
一、相关知识
1.布尔逻辑检索技术
布尔逻辑检索是指采用布尔逻辑表达式来表达用户的检索要求,并通过一定的算法和实现手段进行检索的过程。
利用布尔逻辑运算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用的一种方法。常用的布尔逻辑运算符有三种,分别是逻辑或(OR)、逻辑与(AND)、逻辑非(NOT)。用这些逻辑运算符将检索词组配构成检索提问式,计算机将根据提问式与系统中的记录进行匹配,当两者相符时则命中,并自动输出该文献记录。
(1)逻辑与(AND)运算符(*)
逻辑与是用于组配不同的概念的检索词,是一种概念相交和限定关系的组配。
检索提问式:A AND B
其含义是:检出的信息中必须同时含有“A”和“B”两个检索词(如图1-2-1中阴影部分所示)。其基本作用是对检索范围加以限定,逐步缩小检索范围,提高检索结果的查准率。
例如,检索式:网络AND信息检索
检索结果:文献内容中既含有“网络”又含有“信息检索”词的文献为击中记录。
(2)逻辑或(OR)运算符(+)
逻辑或是用于组配具有同义或同族概念的检索词。
检索提问式:A OR B
其含义是:数据库记录中任何一条记录,只要含有“A”或“B”中任何一个检索词即为命中的文献(如图1-2-2中阴影部分所示)。其基本作用是扩大检索范围,增加命中文献量,提高文献的查全率。
例如,检索式:网络OR信息检索
检索结果:文献内容中含有“网络”或含有“信息检索”,以及两词都包含的文献为击中记录。
(3)逻辑非(NOT)运算符(-)
逻辑非是用于排除含有某些词的记录。
检索提问式:A NOT B
其含义是:检出的记录中只能含有“NOT”运算符前的检索词“A”,但不能同时含有“NOT”运算符后的检索词“B”(如图1-2-3 中阴影部分所示)。其基本作用是缩小检索范围,但并不一定能提高文献命中的准确性,一般只起到减少文献输出量的作用。
例如,检索式:网络NOT信息检索
检索结果:文献内容中含有“网络”而不含有“信息检索”的文献为击中记录。
注意:“NOT”运算符有排除掉相关文献的可能,因此,在实际检索中应慎重使用。
检索中逻辑运算符使用是最频繁的,对逻辑运算符使用的技巧决定检索结果的满意程度。对布尔逻辑检索要求,除了要掌握检索课题的相关因素外,还应在布尔逻辑运算符对检索结果的影响方面引起注意。另外,对同一个布尔逻辑提问式来说,不同的运算次序会有不同的检索结果。
图1-2-1 逻辑“与”运算符
图1-2-2 逻辑“或”运算符
图1-2-3 逻辑“非”运算符
2.二次检索技术
二次检索技术是在当前检索结果范围内,再次提出检索条件进行查询,缩小检索范围。二次检索可以多次进行,使检索结果逐渐接近精确检索的目标。
3.字段限定检索技术
字段限定检索是指一种限定检索词或检索式在数据库中查找的范围,用于缩小检索范围,提高检索速度和命中率。
常用的限定检索字段有:题名、主题词、关键词、文摘、作者、时间、刊名等。
字段限定检索还可以用字段限定命令限定检索范围,例如,限定站内搜索、限定文档格式、限定关键词位置等。
4.截词检索技术
截词检索就是用截断的词的一个局部进行的检索,并认为凡满足这个词局部中的所有字符(串)的文献,都为命中的文献。这种技术用于扩大检索范围,按截断的位置来分,截词有后截断、前截断和中截断三种类型。
(1)后截断检索(前方一致):例如,股票??,检索结果为股票市场、股票数等。
(2)中截断检索:例如,中国??教育,检索结果为中国高等教育、中国职业教育等。
(3)前截断检索(后方一致):例如,??文学,检索结果为现代文学、古典文学等。
二、检索实例
例 1-2-1 百度高级搜索界面的布尔检索。
(1)包含以下全部的关键词:逻辑与
操作输入1:百度检索技巧,如图1-2-4所示。
观察:这几个词在结果中的出现特征,如图1-2-5所示,找到相关结果约15,800,000个。
图1-2-4 操作输入1
图1-2-5 操作输入1结果条目
操作输入2:百度 检索 技巧,如图1-2-6所示,找到相关结果约3,930,000个,如图1-2-7所示。
结论:使用搜索引擎输入关键词的时候,把关键词用空格隔开,相当逻辑与。
图1-2-6 操作输入2
图1-2-7 操作输入2结果条目
(2)包含以下完整的关键词:全部词,并且不能拆分,不能颠倒次序,这种位置检索与布尔检索的结合,也称为词组检索。
操作输入:百度检索技巧,如图1-2-8所示。
观察:结果中词的特征,并观察输入框中词的特征,如图1-2-9所示。
结论:相当于在简单搜索界面输入 “信息检索技巧”,即加双引号。
图1-2-8 操作输入
图1-2-9 操作输入结果条目
(3)包含以下任意一个关键词:或者的意思,只要包含任意一个关键词即可,逻辑或。
操作输入:百度 检索 技巧,如图1-2-10所示。
观察:这几个词在结果中的出现特征以及输入框内关键词的表现形式,如图1-2-11所示。
结论:相当于在简单搜索界面输入:(百度|检索|技巧),即如果各词之间是或者,则用“|”隔开。
图1-2-10 操作输入
图1-2-11 显示结果条目
(4)不包括以下关键词:非的意思,即在结果中不出现以下关键词,逻辑非。
操作输入1:在“包含以下全部的关键词”文本框中输入“百度检索技巧”;在“不包括以下关键词”文本框中输入“百度文库”,如图1-2-12所示。
结论:相当于输入“百度检索技巧-(百度文库)”,即用减号“-”表示非,排除的意思,如图1-2-13所示。
图1-2-12 操作输入1
图1-2-13 显示结果条目
操作输入2:在简单检索界面分别输入以下两组词,并比较结果(搜到的网页数、时间、结果的情况)
百度信息检索技巧 -(百度文库)
百度信息检索技巧
“-”号位置:“-”号前留一个空格。
例 1-2-2 谷歌布尔检索技术应用
布尔检索技术:运算符[与(AND)、或(OR)、非(NOT)]。
(1)逻辑“与”
逻辑“与”用“AND”表示,Google搜索引擎通常用空格表示。使用逻辑“与”是为了要求检索结果的Web页面中同时出现所有输入的检索词,提高查准率。
操作输入1:在简单检索界面输入检索式:亚洲 经济危机(中间空格),如图1-2-14所示。
图1-2-14 “逻辑与”简单检索界面
操作输入2:在高级检索界面的“全部所需字词”文本框中(而且的意思)输入“亚洲 经济危机”,如图1-2-15所示。
图1-2-15 “逻辑与”高级检索界面
检索结果:击中记录3770 000条,如图1-2-16所示。
图1-2-16 “逻辑与”检索结果条目
结论:两种操作方法的检索结果相同。后者相当于在简单检索界面输入检索式:亚洲 经济危机(中间空格)。
(2)逻辑“或”
逻辑“或”用“OR”表示,使用逻辑“或”是为了允许检索结果的Web页面中出现输入检索词的任何一个,提高查全率。
操作输入:在高级检索界面“一个或多个字词”文本框中(或者的意思,只要包含任意关键词即可)输入“亚洲”OR“经济危机”,如图1-2-17所示。
图1-2-17 高级检索界面的“逻辑或”检索
检索结果:击中记录316000 000条,如图1-2-18所示。
图1-2-18 “逻辑或”检索结果条目
(3)逻辑“非”
逻辑“非”用“NOT”表示,Google搜索引擎常用“–”表示,如果用减号,则同时要求在减号前保留一个空格。使用逻辑“非”是为了要求检索结果的Web页面中出现NOT运算符前的检索词,但排除含有NOT运算符后的检索词的页面信息,以缩小检索范围。
操作输入:在高级检索界面的“完全匹配的字词或词组”文本框中输入“亚洲”;在“要排除的字词”文本框(非的意思,即在结果中不出现以下词)中输入“经济危机”,如图1-2-19所示。
图1-2-19 高级检索界面的“逻辑非”检索
检索结果:击中记录218000 000条,如图1-2-20所示。
图1-2-20 “逻辑非”检索结果条目
例 1-2-3 谷歌、百度高级搜索界面的字段限定检索。
(1)site限定在某个特定的域或站点中进行检索
检索题目:搜索清华大学学生建立的社区购物网站蔚蓝网的信息。
操作输入:在高级搜索界面站内搜索中输入“蔚蓝网site:wl.cn/c1/”,如图1-2-21所示。
图1-2-21 限定站内检索
相当于命令格式:检索词site:域名
检索式:蔚蓝网site:wl.cn/c1/
检索结果:在http://www. wl.cn/c1/蔚蓝网的信息,如图1-2-22所示。
图1-2-22 显示结果条目
检索结论:特定输入的关键词在输入的站点内搜索,相当于站内搜索。
(2)关键词位置的限定
百度高级检索界面限定了三个供选择的关键词位置:网页的任何地方、仅网页的标题中、仅在网页的URL中。
① 网页的任何地方:意思是输入的关键词可以出现在结果的标题中、摘要中或者地址中。
② 仅网页的标题中:意思是只有在结果的标题中出现输入的关键词。
操作输入:在“包含以下全部的关键词”文本框中输入“电子商务环境”。在“关键词位置”中限制选择“仅网页的标题中”单选按钮,如图1-2-23所示。
相当于格式:title:(电子商务环境),如图1-2-24所示。
图1-2-23 限定在标题中检索
图1-2-24 显示检索条目
③ 仅在网页的URL中:意思是输入的关键词只出现在结果的地址中。
操作输入:在“包含以下全部的关键词”文本框中输入“电子商务环境”。在“关键词位置”中选择“仅在网页的URL中”单选按钮,如图1-2-25所示。
相当于格式:inurl:(电子商务环境),搜索电子商务环境的专题资料的结果,如图1-2-26所示。
图1-2-25 限定在URL中检索
图1-2-26 显示检索结果条目
(3)filetype用来限定命中文件的类型
在高级检索界面中选择文件格式(doc、xls、ppt、pdf、rtf、all),并在“包含以下全部关键词”文本框中输入要查询的关键词,图1-2-27所示的检索主题为“信息检索”,文件格式为ppt的信息。
图1-2-27 限定文件格式的检索
检索结果:主题为信息检索,文件格式为ppt的文献,如图1-2-28所示。
图1-2-28 显示检索结果条目
三、课堂互动
(1)请查询出有关数字签名知识,但不要电子签名法的表达式。
(2)由于日本福岛核事故的发生,日本食品受到严重污染,请关注此事件并搜索,要求在搜索结果的标题中出现日本、福岛核事故关键词。
(3)有很多网站介绍大量的相关软件的学习方法,最近你非常想学习知名的SPSS软件的使用,要想很快找到类似网站,如何构筑你的表达式?