上QQ阅读APP看书,第一时间看更新
第四节 计算机情报检索
随着计算机和网络检索工具的广泛应用,手工检索在实际应用中的作用越来越小。实际应用时,经过计算机或网络检索后,可直接获得原文或者到图书馆查找原文,从而跨过手工检索的过程,此处因篇幅有限,省略手工检索的内容。
一、计算机情报检索概述
(一)计算机情报检索的含义、原理
所谓计算机情报检索(下称机检)就是指人们根据特定的情报需求,利用计算机从相关的机读数据库中识别并获取所需的情报信息。是19世纪50年代出现的一门新兴学科。它开辟了人类获取情报信息的新纪元,创立了情报检索的新篇章。
机检的原理,与手工检索的原理在本质上相同,但又有所不同。机检的基本原理是计算机将输入机检系统的用户提问标识(检索词)与已存贮在系统中数据库内的文献特征标识(标引词)进行机械性匹配比较,凡符合给定的比较原则和逻辑运算条件者即为命中情报。
(二)计算机光盘检索的特点 1.光盘检索的优点
①存贮密度高、容量大;②存取速度高,并具有随机存取的功能;③保存期长;④价格低廉,便于复制;⑤统一规格;⑥自成体系;⑦易学易用;⑧检索费用低。
2.光盘检索的缺点
①光盘数据库是工业产品,因此,它只能是定期更新。更新周期快则1个月,慢则1年,较难满足需出奇制胜时掌握最新动态的用户;②目前光盘系统大多是单用户操作使用,每次只允许一个用户在机器上检索;③一个单位不可能购买所有光盘数据库,且有的联机文档没有相应的光盘数据库,因此在没有收藏所需数据库时,只能采用联机检索系统。
二、著名医学光盘数据库介绍
(一)国外著名光盘数据库 1.MEDLINE光盘数据库
MEDLINE是1983年由美国国立医学图书馆(national library of medicine,NLM)编辑出版的国际综合生物医学信息书目数据库,是当今世界上最大也是最权威的生物医学文献数据库。它的内容涵盖三种重要的纸本医学文献检索工具:《Index Medicus》(医学索引),《Index to Dental Literature》(牙科文献索引),《International Nursing Index》(国际护理索引)。它收录了1965年以来世界70多个国家和地区出版的大约5000余种生物医学核心期刊的文献题录和文摘,累计文献量已达2000万篇,88%的文献原文是英文,76%的文献有英文摘要。涉及主要学科领域有:基础医学、临床医学、护理学、口腔医学、兽医学、卫生保健及预防医学等。到目前为止,全世界有近20家出版商获准转换MEDLINE数据库,发行MEDLINE的光盘产品,其中包括SilverPlatter(银盘)、Cambridge、DIALOG、OVID等公司。目前,银盘公司出版的MEDLINE光盘数据库是我国医学相关部门进口数量最大,使用频率最高的医学文献光盘数据库,数据更新周期为月更新。检索工具:WinSPIRS(SilverPlatter公司),可免费下载。
2.荷兰医学文摘光盘数据库(EM)
由荷兰阿姆斯特丹的埃尔斯维尔科学出版社(Elsevier Science Publishers B.v.,简称ESP)编辑出版的数据库,1947年创刊,42分册。目前已出版了包括手检本各个专题在内的全套的光盘数据库。收录了大约110个国家的近5000种生物医学期刊,近2000万条记录,覆盖基础、临床及药物相关文献;每年出1~4卷不等,每卷8、10、12期不等。检索工具:WinSPIRS(SilverPlatter公司)。除了光盘数据库,还有EMBASE.COM网络数据库可用。
3.美国《生物学文摘》光盘数据库(BA on CD)
1926年创刊,半月刊。原由美国生物学会联合会编辑,生物学文摘公司出版。1964年起由美国生物科学信息服务中心(Bioscience Information Service,简称BIOSIS)编辑出版,1980年起与原《生物研究索引》结为姐妹刊,后者同年改名《生物学文摘/报告·评论 会议录》,简称BA/RRM。两刊每年摘录世界科技期刊9000多种,以及研究报告、评论、会议文献、专利文献和图书、报道文摘或题录50多万条,是生命科学主要的文摘和索引工具。其内容等同于印刷版,包括生物学传统领域(如:植物学、动物学、微生物学);交叉学科(如:临床和实验医学、生物化学、生物物理);相关领域(如:仪器和设备、方法学)等。收编了110多个国家和地区,23种文字的约6000余种期刊,每年收录约30万篇期刊文章,其中95%以上含有文摘。每三个月更新一次。检索工具:PC-SPIRS(SilverPlatter公司)。分印刷、光盘和网络版。
4.美国化学文摘光盘数据库(CA on CD)
由美国化学学会(ACS)下属部门美国化学文摘社(CAS)编辑出版,是世界公认的最有代表性和权威性的化学文献数据库。内容对应于印刷版《化学文摘》,每月更新。收录了世界上约8000种科技期刊以及31个国家和地区的专利,年文献量约70万篇。其文献中74%为期刊论文,16%为专利文献,6%为会议论文,2%为学位论文,技术报告和图书各占1%。期刊文献中82.5%为英文文献,中文文献占5.9%。专利文献中54.5%为日本专利,9.7%为美国专利,中国专利占0.9%。内容涉及生物化学、物理及无机化学、分析化学、应用化学、化学工程、大分子化学、有机化学等。是生物医学工作者获取文献信息的主要工具之一。检索工具:CA on CD(for Windows)。
5.科学引文索引光盘数据库(SCI)
由美国费城科学情报研究所(Institute for Scientific Information,简称ISI)于1961年创刊,初为年刊,1966年改为季刊,1979年改为双月刊。收录了全球出版的数、理、化、农、林、医、地、生、工和环境等100个自然学科的3500种核心期刊和扩展版期刊6000种。年收录文献量60万条以上,包括原始论文、综述、会议文献等类型。坚持严格的选刊标准和评估程序挑选刊源,而且每年会略有增减,使其能全面覆盖全球最重要、最有影响力的研究成果。检索工具:Science Citation Index。
(二)国内著名光盘数据库 1.中国生物医学文献光盘数据库(CBMdisc)
由中国医学科学院医学信息研究所开发研制的综合性医学文献数据库。收录了1978年至今,1800多种中国生物医学期刊,以及汇编、会议论文的文献题录一千余万条。涵盖了《中文科技资料目录(医药卫生)》、中文生物医学期刊目次数据库(CMCC)中收录的所有文献题录。收录范围涉及基础医学、临床医学、预防医学、药学、中医学及中药学等生物医学的各个领域。检索工具:CBMLARS for CD。
2.中国科学引文索引光盘数据库(CSCI)
收集了我国出版的近千余种中、英文重要期刊上发表的约40万篇论文及其4千万条引文。内容覆盖数学、物理、化学、天文、地学、生物、农林科学、医学及工程技术等领域。是我国目前收集被引文献最多的电子出版物。该数据库如实地反映来源文章的论文题名、著者、著者机构及其所在地区、受基金资助情况和文章出处,并详细提供被引文献中中国人在国内外及外国人在中国发表文献的第一著者、被引文献名称、出版年、卷、期、页及文献类型等信息。
3.中国学术期刊(光盘版)全文数据库
由清华大学光盘国家工程研究中心和北京清华信息系统工程公司联合主办,是我国第一个具有权威性的集成化、多功能电子学术期刊。分为理工、农业、医药卫生、经济法律、文史哲、社科综合、政论、教育和电子技术与信息科学9个专辑,7200多种期刊,其中医疗卫生专辑目前收录400多种期刊,内容按月更新。该刊将入编的期刊全文收入,图文混排,输出格式与期刊印刷一致,检索途径广泛,给用户的多入口检索和直接阅读全文带来很大方便。
4.中国中医药文献光盘数据库
中国中医研究院中医药信息研究所研制的大型中医药文献计算机检索系统。收录了1984年以来国内公开发行的500余种生物医学期刊中有关中医、中药及药用动植物、中西医结合、针灸、气功、按摩、养生等内容的文献题录,其中60%以上附有文摘。文献量逾3万篇。1990年与针灸针麻文献数据库中文版合并。
针灸针麻文献数据库为中国中医研究院中医药信息研究所研制的另一计算机检索系统,是目前世界上惟一具有中英文两种版本的针灸文献数据库。收录了1984年以来10余种语言500多种国内外公开发行的生物医学期刊及有关的国际会议文献中的针灸针麻文献题录,其中中文版文摘率80%,英文版60%。被世界针联指定为向各国提供针灸医学文献检索服务的数据库。
5.中国生物学文献光盘数据库(CBA)
由中科院上海文献情报中心于1987年研建,是目前国内容量最大的生物学文献综合性文摘数据库。收录了中文生命科学期刊近600种以及专著、会议录、专利等文献。年文献报道量1万条左右,累计数据近9万。包括1986年以来我国科技人员在生物科学领域所发表的各类文献,内容有:普通生物学、细胞学、遗传学、生理学、生物化学、生物物理学、分子生物学、生态学、古生物学、病毒学、微生物学、免疫学、植物学、动物学、昆虫学、人类学、生物工程学、药理学及其他相关科学技术领域。基本解决了中文生物学文献查找难的问题,可供从事生物学、农、林、医、牧及环境科学等领域的科研、教学和生产人员用于科研立项、成果查新和技术咨询等。是继《中文生物医学光盘数据库》(CBMdisc)之后,我国又一中文生物医学文献光盘数据库,与之互补使用,可提高中文生物医学文献检索的检索效率。
三、光盘数据库检索详解举例:MEDLINE光盘检索
(一)概况
MEDLINE CD-ROM 数据库的记录由24个字段组成,各条记录的字段数根据实际情况有所不同。
MEDLINE CD-ROM数据库字段一览表
续表
续表
续表
(二)MEDLINE CD-ROM的功能及其功能键(SilverPlatter公司)
SilverPlatter的MEDLINE CD-ROM检索系统的设计简便合理、功能齐全。除设定功能键外,每操作一步,屏幕下方均有相应的菜单提示,用户只需简单指导即可自行操作。
其功能主要有:
F1:帮助(Help)检索过程中遇到困难,可随时按F1或从菜单中选择Help,系统即会给出当前功能的帮助信息和帮助菜单。F1中含有各种检索指令、检索策略、功能键等的说明和举例。
F2:检索功能(Find)该系统的检索功能很强,可进行著者、著者地址、语种、国名、刊名缩写、国际标准期刊号、人名、物质名、化学物质登记号、酶命名号、基因符号、合同号或资助号、自由词、主题词独立检索或指定字段检索等。
F3:数据库使用指南(Guide)告诉用户数据库的结构与组成、各字段一览表、限定字段一览表、字段检索举例及禁用词(Stop Words)一览表等。
F4:显示检索结果(Show)对最后一条检索结果进行显示,显示中可做标记(用于打印和套录)、选择文中词、记录和字段显示选择等;若在期刊数据中输入馆藏信息,该字段还可做本馆收藏期刊显示。
F5:为禁用词(Stop Words)一些可能出现于每条记录中的无检索意义的词,如“have”“and”“of”等以外的记录中所有单词,包括用连词符连接词的一览表。较适宜于查找一些拼法不肯定的词,出现的是按字顺排列的单词表。供判断和选择。
F6:输出结果(Print;F10+D:Download)对F4(Show)中做标记的记录或最后检索结果中全部或部分记录做全部字段或部分字段打印或套录(套录在软盘或硬盘中)。与显示相同,打印和套录时均有选择菜单可进行记录、字段及本馆收藏期刊等的选择。
F7:重新启动检索系统(Restart)原来的检索史全部清除。
F8:换盘及选择数据库。
F9:词表(Thesaurus)适宜于主题词检索。它由三个部分组成:轮排词表、所选词详解及Mesh树状结构表显示。
所选词表(Permuted List)是主题词及其参照词的字顺表,该功能下查找主题词,可以输入词的片段、一个完整的词或一个短语。
年选词详解(Selected Tem Detail)包含所选主题词的定义、标引历史注释、相关词、所选词上下位结构(包括所选词的族首词、直接上位词、所选词本身及其直接下位词)及树显示(Tree)。此功能下可做单个主题词检索(Single Term Search),可扩展主题词检索(Explode Term:同时查找该主题词及其下位主题词),或改变主题词检索(Change Selection);一旦选定主题词,屏幕会主动显示与选定主题词相配合的副题词表(Subheading List)供选择,检索者可根据需要选择一个或多个或全部副题词进行检索。屏幕始终以菜单方式供逐步选择,直至检出结果,若选择错误可随时按B(Back)键返回。
树状结构表显示(MeSH Tree Display)功能中,16000多个MeSH词按等级排列在15个大类目中。许多词根据分类的上位词不同和等级排列需要,在不同的类目中重复出现。主题词按等级缩格排列,最左边的词等级最高。该功能下亦可做单个主题词检索、扩展主题词检索或改变主题词检索,还可显示族首词(Top),并返回。
F5和F9的检索结果均显示于F2,只有在F2状态下才能进行各检索词的组合,并显示检索结果。
其他功能:F10(Commands):命令菜单(一级菜单)
F10+C(Clear):清屏(从Find屏幕删除去检索式)
F10+Q(Quit):退出检索到DOS状态
[Ctrl]+[Break]:中断检索、打印、套录、存贮检索史,或中断运行检索史
[Ctrl]+[PgUp]:显示上一条记录
[Ctrl][PgDN]:显示下一条记录
[Esc]:返回到上个菜单
另外,该系统还有时间监督,阶段答复功能:如果检索式很复杂或寻找执行进行很长,用户对长时间的响应可能产生疑虑,“系统”的这个功能可以分阶段不停地给出答复。如在寻找过程中,屏幕下方会出现以下字样:“Search 5%complete 2 found so far”,即告诉检索者,目前检索了5%,有两篇命中(以上数字在不断变化)。指出错误,指导用户:用户在使用过程中,难免会出现一些操作失误或其他错误,“系统”随时提示用户错在哪里,该怎样操作。
(三)检索用逻辑及位置语
续表
(四)检索效率
提高检索效率的方法很多,在检索实践中可根据课题具体情况采用不同的方法。归纳起来主要有:
1.提高查全率
经估计或初查后所需文献过少甚至查不到时,应尽量放宽检索用词。
(1)采用Explode(扩展)指令扩展主题词检索。
(2)采用“or”(逻辑)连接可能的同义词、相关词、单复数、形容词等同一概念的不同表达方式:如用newborn or neonatal or neonate or neonatus等查全新生儿这一概念。
(3)采用“*”截词符检索具有不同后缀的同一概念。如用compute*检索computer computed或computerize等。
(4)采用“?”替代一词中某一字母的变化形式。如用colo?r检索color或colour等。
(5)通过F5(Index)选择具有相同前缀的同一概念,作用类似于截词符,但可除去某些完全不相关而前缀相同的词。
(6)从显示记录选词,并检出结果。如在F2状态下输入PCR,检出结果并显示记录,见文中polymerase chain reaction为其全称形式,采用选词键S(Select Term)选下该词并检出结果。
2.提高查准率
(1)采用主题词及主要主题词检索。
(2)采用副题词限制检索。
(3)采用“in”把某个检索词限定在某个字段。
(4)采用“and”“with”“near”缩小检索范围。
(5)采用LA、SB、AI、PT、TG等限制检索范围。
如:LA=ENGLISH把文种限于英文;SB=AIM,把刊物限于核心期刊;AI=AB把检索限于有摘要的记录;PT=REVIEW把检索限于综述文献;TG=HUMAN把检索限于临床报道。
(6)在已知著者、物质名、酶命名号、化学特登记号、基因符号等情况下,可直接检索,其专指性强,查准率高。