网络信息资源检索与科技论文写作
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3 信息检索及其系统

1.3.1 信息检索的概念

信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索已成为图书馆独立的工具和用户服务项目。随着1946 年世界上第一台电子计算机问世,计算机技术逐步走进信息检索领域,并与信息检索理论紧密结合起来,脱机批量情报检索系统、联机实时情报检索系统相继研制成功并商业化。20世纪60年代到80年代,在信息处理技术、通信技术、计算机和数据库技术的推动下,信息检索在教育、军事和商业等各领域高速发展,得到了广泛的应用。Dialog国际联机情报检索系统是这一时期的信息检索领域的代表,至今仍是世界上最著名的检索系统之一。

信息检索(information retrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关信息过程和技术。狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻(information search或information seek)。

1.3.2 信息检索的类型

按照不同的标准,可以将信息检索划分为不同的类型。

按照信息的存储和检索手段来划分,可以分为手工检索、机械化检索与计算机检索三种。

按照检索对象来划分,可以分为书目检索、数据检索和事实检索三种。

书目检索以提供和确定文献来源信息为主要内容,即以二次文献为检索对象,用户通过检索获得的是与检索课题相关的一系列文献线索,然后再通过阅读决定取舍,在书目数据库中一般不提供原始文献。书目检索是目前发展较充分的一种检索,可以将其划分为目录检索与文献检索两种。

目录(catalog)对文献的描述比较简单,是以一本或一种出版物(如一本图书、一种期刊等)为其著录对象,并按照一定的次序编排而成的一种揭示与报道文献的工具。目录不揭示出版物的内容,只着眼于报道实有的文献或收藏文献的情况,可分为图书目录、报刊目录、馆藏目录等,其中最为常见的是馆藏目录或馆藏联合目录。在网络上运行的联机公共检索目录(Online Public Access Catalog,OPAC)可提供联机目录查询。Internet把许许多多的图书信息中心连接起来,提供地区性乃至全球性的目录检索服务。例如,世界最大的图书馆自动化网络(Online Computer Library Center,OCLC)向全球用户提供几万家图书馆的馆藏信息。

文献检索(document retrieval)系统提供对参考文献的检索,检索结果往往是一些可提供研究课题使用的参考文献的线索,即来源信息(source),但不是文献本身(原文),所以说它是一种间接的相关性检索。因此,这就涉及获取全文的问题。原始文献包括全文的原件及其复印件,通常由馆藏单位提供。用户可以通过Internet查阅各信息单位的馆藏情况,并通过馆际互借、联机借阅、联机订购及电子传送等系列服务达到资源共享。从性质上来说,文献检索是相关性检索。

数据检索(data retrieval)是指将经过选择、整理和评价/鉴定的数据存入某种载体中,并根据用户需要从某种数据集合中检索出能回答问题的准确数据过程或技术。按查询问题的要求,分为简单检索(即单一因素的检索)和综合检索(即综合条件检索)。数据文件组织方式不同,数据检索的技术方法也不同。

事实检索(fact retrieval)是情报检索的一种类型。广义的事实检索既包括数值数据的检索、算术运算、比较和数学推导,也包括非数值数据(如事实、概念、思想、知识等)的检索、比较、演绎和逻辑推理。它要求检索系统不仅能够从数据(事实)集合中查出原来存入的数据或事实,还能够从已有的基本数据或事实中推导、演绎出新的数据或事实。例如,该系统中存储有如下事实:①李明是A校的学生。②A校的学生都学外语。如果该系统是一个事实检索系统,则它应当能回答某用户提出的“李明学外语吗”这种问题。事实检索是情报检索中最复杂的一种,它要求系统中的数据和事实以自然语言或接近于自然语言的方式存储;不仅要存入各种数据或事实单元,还要存入各单元之间的语义关系、句法关系以及各种有关的背景知识;允许用户用自然语言提问,并能用自然语言作答;更重要的是,系统必须具有一定的逻辑推理能力和自然语言理解功能。

事实检索是一个相当复杂的过程。目前还是依靠人工来完成。具体做法是:首先利用检索工具、参考工具书、数据库或其他途径查出有关的原始数据、事实或文献,然后进行分析比较,去粗取精,去伪存真,最后把得到的“事实”提供给用户。数据检索和事实检索都是确定性检索。

全文(full-text)检索是指计算机程序通过扫描文章中的每一个词,对于每一个词都建立一个索引,指明该词在文章中出现的次数和位置。当用户查询时根据建立的索引查找,类似于通过字典的检索字表查字的过程。全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。

按照信息检索的途径来划分,可以将信息检索划分为直接检索和间接检索两种。

直接检索是指以论文作者在文章最后所附的参考文献为基础,进行逐一追踪查找的方法。该方法获得文献针对性强,数量较多,在没有检索系统或检索工作不齐备的情况下,利用此方法能够获得一些所需要的文献资料。不足之处是所获得的文献不够全面,而且往前追溯年代越远,所查获的文献越陈旧。

间接检索是指利用检索系统查找文献,这是一种常规的科学检索方式。根据不同的课题要求,不同的设备条件,可以选择最适当的方案来实施检索,其内容包含检索课题的分析、检索策略的确定、检索技术的应用等方面。

1.3.3 信息检索的步骤

1.分析研究课题,明确检索要求

在着手进行文献检索之前,首先要针对课题进行一番分析、研究,确定涉及学科范围、查阅年限、语种和文献类型,明确检索的目的。如果需要掌握课题的详尽信息,可以考虑使用网络数据库,尽可能全面、彻底地检索;如果需要掌握课题的最新信息,可以优先考虑使用更新速度较快的数据库,如联机检索数据库。课题分析是确定检索策略的前提和基础。

2.选择信息检索系统,确定检索途径

(1)选择信息检索系统的方法

①通过信息检索工具指南来指导选择,或者直接浏览图书馆的信息检索系统进行选择。

②从所熟悉的信息检索工具中选择。

③主动向工作人员请教。

④通过网络在线帮助选择。

(2)选择信息检索系统的原则

①收录的文献信息需涵盖检索课题的主题内容。

②就近原则,方便查阅。

③质量较高、收录文献信息量大、报道及时、索引齐全、使用方便。

④记录来源、文献类型、文种尽量满足检索课题的要求。

⑤数据库是否有对应的印刷型版本。

⑥根据经济条件选择信息检索系统。

⑦根据对检索信息熟悉的程度进行选择。

⑧选择查出的信息相关度高的网络搜索引擎。

确定具体的信息检索系统后,可以根据检索课题内容的要求,从数据库的分类或者主题等途径进行检索,也可以根据已知的外部信息,如作者、文献序号等,从数据库的外表特征途径进行检索。

3.确定检索词

确定检索词的基本方法:选择规范化的检索词;使用各学科在国际上通用的、国外文献中出现过的术语作为检索词;找出课题涉及的隐性主题概念作为检索词;选择课题核心概念作为检索词;注意检索词的缩写词、词形变化,以及英美的不同拼法;采用联机方式确定检索词。

4.构造检索式,确定检索策略

所谓构造检索式,是指在计算机检索系统中,需要将表达检索课题的标识用逻辑运算符、位置运算符等进行组配,并选择检索字段和检索提问的先后次序。

确定检索策略的前提条件是要了解信息检索系统的基本性能,其基础是要明确检索课题的内容要求和检索目的,其关键是要正确选择检索词和合理使用逻辑组配。

产生误检的原因可能有:一词多义的检索词的使用;检索词与英、美国人名、地址名称、期刊名称相同;不严格的位置运算符的运用;检索式中没有使用逻辑非运算;截词运算不恰当;组号前忘记输入指令“s”;逻辑运算符前后未添加空格;括号使用不正确;从错误的组号中打印检索结果;检索式中检索概念太少。

产生漏检的原因或检索结果为零的原因可能有:没有使用足够的同义词和近义词或隐含概念;位置运算符用得过严、过多;逻辑“与”用得太多;后缀代码限制得太严;检索工具选择不恰当;截词符使用不恰当;单词拼写错误、文档号错误、组号错误、括号不匹配等。

提高查准率的方法有:使用下位概念;将检索词的检索范围限于篇名、叙词和文摘字段;使用逻辑“与”或逻辑“非”;运用限制选择功能;进行高级检索等。

提高查全率的方法有:选择全字段检索;减少对文献外表特征的限定;使用逻辑“或”;利用截词符;使用检索词的上位概念;把(W)运算符改成(1N)、(2N);选择更合适的数据库。

5.处理检索结果

将所获得的检索结果加以系统整理,筛选出符合课题要求的相关文献信息,选择检索结果的著录格式,辨认文献类型、文种、著者、篇名、内容、出处等项内容,输出检索结果。

6.原始文献的获取

①利用二次文献检索工具获取原始文献;

②利用馆藏目录和联合目录获取原始文献;

③利用文献出版发行机构获取原始文献;

④利用文献著者获取原始文献;

⑤利用网络获取原始文献;

⑥利用馆际互借获取原始文献。

1.3.4 检索结果的评价

关于检索结果的评价,主要是评价检索效率。所谓检索效率,是指检索过程和检索结果具有方便、快速、全面和准确等特点。查全率、查准率、漏查率和误查率是评价检索效率的4个常用指标。

(1)查全率R(recall ratio):指从检索系统中检索出来的有关某课题的文献信息数量与系统中相关文献总量的比率。

(2)查准率P(precision ratio):指从检索系统中检索出来的有关某课题的文献信息数量与检索出来的文献信息总量的比率。

(3)漏查率O(omission ratio):

(4)误查率M(miss ratio):

上面的式子中,a表示检索出的相关文献数量,b表示检索出的不相关文献数量,即误检的文献数量,c表示未检索出的相关文献数量,即漏检的文献。a+c表示检索系统中存储的相关文献数量,a+b表示检索出的文献总量。

其中,查全率和查准率是衡量检索效果的两个主要指标。显然,查全率高,漏查率必然低;查准率高,误查率就必然低。

要提高检索效率,首先,应该选择好检索系统。检索系统就像钥匙,是获取所需文献的必要手段。其次,应该准确使用检索语言,用户所使用的检索语言必须能够准确表达信息的要求,当用户的提问与检索系统中的检索标识一致时,才能够检索出来所需要的文献。最后,应该善于利用各种辅助索引。

1.3.5 信息检索系统的概念

对于科技工作者需要的文献,如图书、期刊、科技报告、专利文献、学位论文及会议文献等,它们都属于一次文献。这些一次文献数量巨大,它们会被刊登在不同的刊物上,也会被收藏在不同的信息单位中。如果不知道这些文献被发表在何处,被保存在何处,要想查找使用这些文献是很困难的。为了解决这个问题,用于报道、存储和查找文献的系统,即检索系统,就应运而生了。

信息检索系统(information retrieval system)是指根据特定的信息需求而建立起来的一种有关信息搜集、加工、存储和检索的程序化系统,其主要目的是为人们提供信息服务。

1.3.6 信息检索系统的组成

为了完成信息检索任务,信息检索系统应包括以下几个子系统。

文献信息选择子系统:即检索系统所选择文献学科范围的覆盖面,以及文献的类型、文种和时间的范围。

词表子系统:对文献信息存储与检索两个过程中的文献信息特征和检索提问特征的语言形式进行规定,又称为检索语言系统。

标引著录子系统:将文献的主题内容,经过概念分析,依据系统的词表,将分析得出的概念转换成检索系统语言和词汇。

查询子系统:把信息用户的需求,经过概念分析转换成检索系统语言的词汇,并指出它们之间的逻辑关系的过程,也就是拟订检索策略的过程。

用户与系统之间交互子系统:对用户的文献需求形成明确的检索概念,并将其正确表述出来的过程。这是确定具体检索目标的过程。

匹配子系统:将检索策略同文献索引中的有关标引著录相比较,从而决定其取舍的过程,也就是文献特征与信息用户提问进行匹配的过程。

存储是检索的基础,检索文献是存储文献的相反过程。了解检索系统的结构和组成,有助于对各种检索系统特征的认识,从而正确选择检索系统,改善文献检索的效果。

1.3.7 信息检索系统的类型

依照不同的标准,可以将信息检索系统划分为不同的类型。

按照内容可以划分为期刊信息检索系统、图书信息检索系统、学位论文检索系统、专利信息检索系统、标准信息检索系统和会议论文检索系统等。

按照自动化程度可以划分为手工检索系统和计算机检索系统两种。

按照形式可以划分为搜索引擎和数据库检索系统两种。

按照用途可以划分为指示线索型检索系统和提供具体信息的系统两大类。指示线索型检索系统也称为书目型检索系统,它包括书目和馆藏目录、索引和文摘三种。提供具体信息的系统又称为三次文献。

依照文献信息选择子系统,可以将检索系统划分为书目检索系统、数据检索系统、事实检索系统、全文检索系统和多媒体检索系统等;也可以划分为综合性检索系统、专科性检索系统、专题性检索系统;还可以划分为多类型文献检索系统、单类型文献检索系统等。

依照词表子系统,可以将检索系统划分为分类检索系统、主题检索系统、题名检索系统与人名检索系统等。

依照查询子系统,可以将检索系统划分为脱机检索系统和联机检索系统等。

依照检索系统的载体,可以将检索系统划分为印刷型检索系统、缩微型检索系统及电子型检索系统等。

1.3.8 信息检索系统的评价

检索系统的质量影响着检索系统的使用效果,如何对检索系统进行评价,可以从下面的几个方面考虑。

检索功能:主要是指系统提供给用户的各种检索途径和检索入口,可供选择的越多,对用户来说就越方便,例如,是否提供浏览功能、简单检索、复杂检索、自然语言检索手段等。

检索技术:是指系统是否允许用户使用各种检索技巧,以便更准确和快速地找到自己所需要的信息。

检索结果:是指用户是否得到了内容全面、下载和使用都比较方便的检索结果。

用户服务:是指除了检索功能之外,系统还为用户提供哪些服务,例如,是否可以记录检索历史、是否提供主题词表、是否提供最新期刊目次报道等。

全面性:是指检索系统收录的文献信息是否全面,可以用覆盖面、摘贮率和报道数三个指标来衡量。

覆盖面是指检索系统收录文献范围所覆盖的学科面和出版物类型及数量。摘贮率是指检索系统收录的文献信息数量与其覆盖面内全部文献信息数量的比率。报道数是指一定时间内报道文献信息的数量。

及时性:是指检索系统报道新出现文献信息的速度,一般用“时差”来衡量。“时差”是指从一次文献发表到相应的二次文献发表之间的时间。检索系统的时差越短,越可以使信息及时得到报道。在信息爆炸的今天,检索系统报道的及时性是非常重要的。

文摘著录质量:主要揭示文献主题的内容是否恰当充分,提供的信息是否确切,能否使科技工作者获得文献的主题信息以判断文献是否符合自己的要求。