APP下载

浅议电子信息检索

2015-03-26武汉科技大学图书馆张旭帮

电子世界 2015年18期
关键词:查全率查准率检索系统

武汉科技大学图书馆 张旭帮

尽管因特网技术发展迅速,人们可免费从网上获取的信息不断丰富,但就其信息资源的系统性、完整性、可靠性而言,还是难以与大型的商业化联机检索系统相匹敌。联机检索,是指检索者利用终端设备,通过远程通信线路或网络,使用一些特定指令和检索提问式,并采用“人—机对话”的方式,对联机检索系统的几个或几十个数据库同时进行搜索的过程。

美国DIALOG系统是当今世界规模最大的国际联机检索系统,也是运作最为成功的商业化联机数据库系统。其信息容量大、数据质量高、文献类型齐全、资料来源可靠、更新速度快、专业面广,基本上包括了所有学科领域。它以功能强大的检索软件为支撑,其检索算符、检索途径众多,查询搜索方便灵活、快捷简便,更兼有数据库总索引浏览、联机词典辅助检索等别具特色的功能;具有其他网络数据库系统无可比拟的技术、资源优势。在实际利用中,只要使用者的检索策略得当,一般都能达到较高的查准率和查全率,获得满意的效果。

1 联机信息检索

因此,多年来DIALOG系统一直是我国科技查新工作中的主要检索工具,同时也是国内科技、经济信息检索服务中利用率最高的国际联机检索系统。在进行国际联机检索时,一般可采取下列几个步骤:

1.1 先试检摸底

国际联机检索前最好先对相应的检索刊物进行手工试检,或利用因特网搜索相关信息,了解专业文献分布情况,初步估算文献量,以便确定相应的联机检索方案;手检(或因特网搜索)摸底有助于准确地掌握专业用词,以提高下一步检索的准确性。有时通过试检发现,手工检索或因特网搜索也能满足信息需求,这时放弃国际联机检索,便可节省不少的费用。

1.2 制定检索方案

这是一个分析课题内容,确定主题概念,选择检索词,构造提问式的过程。但要注意的是,在国际联机检索时,我们常用的是一些英文数据库,因此不要想当然地使用一些“中式英语”的信息提问。现以“国外教育管理现代化” 的检索为例:当今发达国家的教育管理本身就包含有现代化管理的内容,如用“现代化”这个概念去搜索,既显得多余,同时也不符合人家的表述习惯。

1.3 选择合适的数据库

选择数据库一般有这几种方式:①利用数据库一览表或数据库简介资料来选择;②参考与数据库对应的检索刊物(如“化学文摘”、“工程索引”、“科学文摘”……等等)进行选择;③利用检索系统的索引文档筛选。例如,在检索中,若选用的数据库较多,这时可先利用DIALOG系统的411索引文档进行预检扫描,以显示各数据库的检索效果,便可确定合适的数据库。

1.4 准确填写联机检索提问单

各种国际联机检索提问单均大同小异,一般有:课题名称、内容简介、检索词、检索逻辑式、数据库……等等。可按顺序依次填写。但对“输出要求”项,应注意以下几点:①国际联机检索通常采用脱机打印,以减少联机费。②一般情况下,联机检索中直接指定输出文献数量的方式通常要比限定年代输出的方式简便,这既节省机时,又能合理地控制文献量,其效果较好。

确定了检索策略,再填写好检索提问单,交给联机检索操作人员,便可以检索了。

1.5 联机调节

由于国际联机检索费用较高,因此,在动手检索前,应针对联机检索过程中可能出现的各种情况(如:命中文献量太多或太少、检索结果为零、不相关文献居多等),准备几套备用方案,以便随时根据终端屏幕显示的情况,及时、有效地进行调节、修正,不断完善检索策略,力争以最短的时间、最少的花费,获得最佳的检索效果。

1.6 分析检索结果

对检索结果进行分析、研究,总结经验;并根据筛选出的切题文献记录的出处索取原文。

2 信息检索效果的评价

计算机检索的效果,既是广大信息用户的利益所在,也是专业检索人员密切关注的问题,它还直接影响着检索系统在信息市场上的竞争能力。通过评价数据库系统的检索质量,研究影响检索效果的各种因素,将有助于我们在计算机信息检索的实践中提高检索质量,改善检索效果。

2.1 查全率和查准率

衡量检索效果主要有两个标准:查全率和查准率。查全率是指检出的相关文献量与数据库中相关文献总量的比率,它反映了相关文献被检出的程度。

查全率=[检出相关文献量/数据库内相关文献总量]×100%

查准率是指检出的相关文献量与检出文献总量的比率,它反映系统拒绝非相关文献的能力。

查准率=[检出相关文献量/检出文献总量]×100%

英国学者在分析、研究了大量的有关数据后,提出查全率和查准率之间存在着一种“互逆相关”的规律。也就是说,为了提高查全率而放宽检索范围,往往使查准率下降;要想提高查准率而缩小检索范围,则常使查全率降低。在实际中,偶尔也会出现查全率和查准率同时达到很高的值,但这只是极个别的情况。而查全率和查准率之间互相制约的现象却是普遍存在。

由于高查全率和高查准率难以同时获得,因此在确定检索目标时,应对检索结果的查全率和查准率有所考虑。如果能事先明确优先保证查全率或查准率,将有助于制定相应的检索策略,取得检索过程中的主动权。对于工矿企业从事应用研究和工艺流程设计的用户,他们往往只要求检索的结果能解决他们的实际问题,不一定需要很多文献,而要求较高的查准率。对于一些从事基础理论研究或为申请专利而“查新”的用户,他们往往需要全面、系统地收集某一主题范围的资料,因此对查全率要求较高。不同的用户,根据从事工作的性质不同,以及研究阶段的不同,对查全率和查准率将有所侧重。在一般的情况下,不必过分地求全求准,以免造成顾此失彼的结果。

2.2 影响检索效果的因素

计算机检索的效果取决于许多因素,如标引质量、系统功能、数据库结构及检索策略等。标引的深度是指标引一篇文献所用的标识数量,标引深度越大,则提供的检索标识就越多,所标引的文献被检出的概率就越大,查全率也就越高。然而,过度的标引又会引起误差,影响查准率。因此,标引深度即不宜过浅,也不能过度,问题的关键就是如何才能做到适度标引。合理的标引必须遵循这样的原则:正确地选择标识,准确地表达文献的主题概念;全面地揭示主题内容,不遗漏有价值的信息;进行合理的取舍,不过量标引;保持标引的前后一致性。要达到这些标准是很困难的;在实际中,标引的质量主要取决于词表(主题词表、标题词表和分类表等)的质量和标引人员的专业知识、工作经验以及对检索语言的掌握程度等。

一般来说,受过一定机检训练的用户,常常能够保证检索的质量。因为各专业人员熟悉自己所研究的学科领域,检索目的明确;在掌握了必要的机检知识和方法后,就能够制定较为合理的检索策略,并能在反馈调节中作出准确地判断,从而获得满意的检索效果。要达到这一步,还有待于在各专业人员中广泛地普及计算机信息检索知识;同时也应在高校文献检索教学中进一步地充实、完善机检的内容,使大学生、研究生掌握一定的检索技能,以便在今后工作中能够有效地利用计算机检索这一现代化的信息手段,快速、准确、全面地获得相关信息,紧跟世界科技发展的新形势。

3 结束语

国际联机检索系统拥有庞大的信息资源,所涉及的内容包罗万象,十分丰富。可以说人类从来没有像今天这样可以方便地获取各类的信息。在当今信息量极大、通信业极为发达的时代,掌握信息更加重要。面对如此巨大的信息海洋,如果不掌握获取信息的方法和技巧,只能是望洋兴叹!因此,掌握网络信息检索技能,及时准确、全面获取信息,提高鉴别、选择与利用文献信息的能力,有利于消化新信息,吸收所需的专门知识,从而更好地从事科研和各种管理活动,快速获取成功。

[1]蒋瑶.浅谈关于网络信息检索的认识.大众文艺:学术版,2010(9).

猜你喜欢

查全率查准率检索系统
海量图书馆档案信息的快速检索方法
收录《信号处理》的检索系统及数据库
基于数据挖掘技术的网络信息过滤系统设计
收录《信号处理》的检索系统及数据库
本刊被以下检索系统及数据库收录
本刊被以下检索系统及数据库收录
基于词嵌入语义的精准检索式构建方法
大数据环境下的文本信息挖掘方法
基于深度特征分析的双线性图像相似度匹配算法
基于Web的概念属性抽取的研究